加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于锚文本的聚焦网络爬虫搜索方法及其系统

发明专利有效专利
  • 申请号:
    CN201110230220.X
  • IPC分类号:G06F17/30
  • 申请日期:
    2011-08-11
  • 申请人:
    中国科学院自动化研究所
著录项信息
专利名称基于锚文本的聚焦网络爬虫搜索方法及其系统
申请号CN201110230220.X申请日期2011-08-11
法律状态授权申报国家暂无
公开/公告日2011-12-28公开/公告号CN102298622A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人中国科学院自动化研究所申请人地址
北京市海淀区中关村东路95号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人中国科学院自动化研究所当前权利人中国科学院自动化研究所
发明人郝红卫;台宪青;王艳军;殷绪成
代理机构中科专利商标代理有限责任公司代理人周国城
摘要
本发明公开了一种基于锚文本的聚焦网络爬虫搜索方法及其系统,所述方法主要包括:从URL优先级队列中获取URL,并依据URL从Internet下载得到Web页面;对下载的Web页面进行解析,提取URL及其锚文本;对提取出的URL及其锚文本进行筛选;采用TF-IDF与LSI相结合的算法来计算URL的主题相关度,并将符合条件的URL放入优先级队列中;所述系统包括:URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器。通过采用所述基于锚文本的聚焦网络爬虫搜索方法及其系统,本发明提高了聚焦网络爬虫爬行结果的主题相关度及爬行效率。

专利服务由北京酷爱智慧知识产权代理公司提供