一种基于URL字符串信息学习的主题爬虫系统的实现方法

发明专利无效专利

申请号：
CN201210052902.0
IPC分类号：G06F17/30
申请日期：
2012-03-02
申请人：
杭州电子科技大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种基于URL字符串信息学习的主题爬虫系统的实现方法
申请号	CN201210052902.0	申请日期	2012-03-02
法律状态	权利终止	申报国家	中国
公开/公告日	2012-09-12	公开/公告号	CN102662954A
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	杭州电子科技大学	申请人地址	浙江省杭州市下沙高教园区2号大街变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	杭州电子科技大学	当前权利人	杭州电子科技大学
发明人	徐向华;任祖杰;万健;殷昱煜;胡昔祥
代理机构	杭州求是专利事务所有限公司	代理人	杜军

摘要

本发明公开一种基于URL字符串信息学习的主题爬虫系统的实现方法，首先，改进了传统的主题爬虫的相关度判断方法，提出了基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度的方法，并采用机器学习对URL字符串携带的信息不断学习，动态的更新主题相关向量，提高了目标URL主题相关度判断的准确性。最后，在不增加计算复杂度的同时，利用内容分析和链接分析相结合的爬虫策略，防止了主题爬虫陷入局部最优，提高了爬虫爬取时的全局性，改善了爬虫的效率。本发明可以用于垂直搜索引擎中爬虫模块用于爬取特定领域的网页。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供