加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种主题知识自增长型聚焦网络爬虫搜索方法

发明专利无效专利
  • 申请号:
    CN201310119282.2
  • IPC分类号:G06F17/30
  • 申请日期:
    2013-04-08
  • 申请人:
    湖南农业大学
著录项信息
专利名称一种主题知识自增长型聚焦网络爬虫搜索方法
申请号CN201310119282.2申请日期2013-04-08
法律状态权利终止申报国家中国
公开/公告日2013-07-03公开/公告号CN103186676A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人湖南农业大学申请人地址
湖南省长沙市芙蓉区农大路1号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人湖南农业大学当前权利人湖南农业大学
发明人李东晖;廖晓兰;黄九鸣
代理机构北京东正专利代理事务所(普通合伙)代理人刘瑜冬
摘要
本发明公开了一种主题知识自增长型聚焦网络爬虫搜索方法,该方法步骤如下:(1)从初始的URL中获取网页;(2)对(1)步网页中主题相关度进行评估,结合其相关度数值,从网页内容中抽取知识进行主题知识扩展;(3)从(1)步网页中抽取URL并结合(2)步的网页主题相关度进行URL评估;(4)将(3)步URL及其评估结果存入候选队列,下一轮爬取时,从候选队列中取出相关度最高的URL进行爬取。本发明的技术方案利用网页关键词与主题关键词的共现关系,以及与URL锚文本关键词的共现关系,提出了主题知识的扩展方法,从而基于自增长的主题知识,以较稳定的正确率爬取更多的网页。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供