加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于URL字符串信息学习的主题爬虫系统的实现方法

发明专利无效专利
  • 申请号:
    CN201210052902.0
  • IPC分类号:G06F17/30
  • 申请日期:
    2012-03-02
  • 申请人:
    杭州电子科技大学
著录项信息
专利名称一种基于URL字符串信息学习的主题爬虫系统的实现方法
申请号CN201210052902.0申请日期2012-03-02
法律状态权利终止申报国家中国
公开/公告日2012-09-12公开/公告号CN102662954A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人杭州电子科技大学申请人地址
浙江省杭州市下沙高教园区2号大街 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人杭州电子科技大学当前权利人杭州电子科技大学
发明人徐向华;任祖杰;万健;殷昱煜;胡昔祥
代理机构杭州求是专利事务所有限公司代理人杜军
摘要
本发明公开一种基于URL字符串信息学习的主题爬虫系统的实现方法,首先,改进了传统的主题爬虫的相关度判断方法,提出了基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度的方法,并采用机器学习对URL字符串携带的信息不断学习,动态的更新主题相关向量,提高了目标URL主题相关度判断的准确性。最后,在不增加计算复杂度的同时,利用内容分析和链接分析相结合的爬虫策略,防止了主题爬虫陷入局部最优,提高了爬虫爬取时的全局性,改善了爬虫的效率。本发明可以用于垂直搜索引擎中爬虫模块用于爬取特定领域的网页。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供