加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

爬虫种子获取方法与设备及爬虫爬取方法与设备

发明专利有效专利
  • 申请号:
    CN201110232595.X
  • IPC分类号:H04L29/08;G06F17/30
  • 申请日期:
    2011-08-15
  • 申请人:
    北京星网锐捷网络技术有限公司
著录项信息
专利名称爬虫种子获取方法与设备及爬虫爬取方法与设备
申请号CN201110232595.X申请日期2011-08-15
法律状态授权申报国家暂无
公开/公告日2012-02-15公开/公告号CN102355488A
优先权暂无优先权号暂无
主分类号H04L29/08IPC分类号H;0;4;L;2;9;/;0;8;;;G;0;6;F;1;7;/;3;0查看分类表>
申请人北京星网锐捷网络技术有限公司申请人地址
北京市海淀区复兴路29号中意鹏奥酒店东塔A座12层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京星网锐捷网络技术有限公司当前权利人北京星网锐捷网络技术有限公司
发明人吴滨华;王祖海
代理机构北京同立钧成知识产权代理有限公司代理人李勇
摘要
本发明提供一种爬虫种子获取方法与设备及爬虫爬去方法与设备。爬虫种子获取方法包括:根据预设检索词词典和目标导航网站的URL特性,构造动态页面请求;将动态页面请求发送给目标导航网站的服务器;根据预设提取策略,从服务器根据动态页面请求返回的检索结果页面中提取目标URL,目标URL为检索结果页面中的URL的主域名地址;对目标URL进行唯一化处理,获取唯一化目标URL,将唯一化目标URL作为爬虫种子。本发明技术方案能够提供大量的、离散度大的爬虫种子,从而缩短形成主流URL的时间,提高主流URL的覆盖性,降低爬虫系统进行爬取时的时间成本。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供