加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种主题网络爬虫系统的构建方法

发明专利无效专利
  • 申请号:
    CN201110007710.3
  • IPC分类号:G06F17/30
  • 申请日期:
    2011-01-14
  • 申请人:
    哈尔滨工程大学
著录项信息
专利名称一种主题网络爬虫系统的构建方法
申请号CN201110007710.3申请日期2011-01-14
法律状态权利终止申报国家中国
公开/公告日2011-05-25公开/公告号CN102073730A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人哈尔滨工程大学申请人地址
黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人哈尔滨工程大学当前权利人哈尔滨工程大学
发明人宁慧;吴昊;谈亚洲;吴悦;吕志龙
代理机构暂无代理人暂无
摘要
本发明提供的是一种主题网络爬虫系统的构建方法。(1)定义主题初始描述向量,设定相关度初始阀值、初始化URL队列;(2)从初始URL队列中依次获取URL进行爬取;(3)对URL进行文本分析;(4)对URL进行链接分析;(5)计算URL与主题的相关度;(6)将相关度大于相关度阈值的URL加入有序的URL队列,URL依照与主题向量的相关度高低排序,依次爬取,直至队列为空,对于每个爬到的网页,提取其中的子URL,返回到步骤(3);(7)使用遗传算法进行遗传算法最优化;(8)Rocchio反馈模块对主题向量更新,并动态调整相关度阈值,继续爬取网页。本发明不需要事先准备大量的训练文本,速度快,适合处理海量的在线网页数据。

专利服务由北京酷爱智慧知识产权代理公司提供