加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种分布式网络爬虫的URL排重系统及方法

发明专利有效专利
  • 申请号:
    CN201210425213.X
  • IPC分类号:H04L29/08
  • 申请日期:
    2012-10-30
  • 申请人:
    工业和信息化部电信传输研究所
著录项信息
专利名称一种分布式网络爬虫的URL排重系统及方法
申请号CN201210425213.X申请日期2012-10-30
法律状态授权申报国家暂无
公开/公告日2013-02-13公开/公告号CN102932448A
优先权暂无优先权号暂无
主分类号H04L29/08IPC分类号H;0;4;L;2;9;/;0;8查看分类表>
申请人工业和信息化部电信传输研究所申请人地址
北京市海淀区花园北路52号电信研究院B座6层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人工业和信息化部电信传输研究所当前权利人工业和信息化部电信传输研究所
发明人刘述;徐贵宝;江文学;何宝宏;高强;赵劲
代理机构北京连和连知识产权代理有限公司代理人贺小明
摘要
一种分布式网络爬虫的URL排重系统及方法,所述系统包括爬虫采集子节点,中心服务器,数据库服务器。所述方法包括:爬虫采集子节点在中心服务器上进行注册;爬虫采集子节点从数据库等待队列中获取URL,从此URL获取新的URL信息;爬虫采集子节点对新获取的URL进行一级排重,如一级排重未通过,则放弃该URL;如一级排重通过,将新获取的URL加入本地URL摘要表并发送给中心服务器;中心服务器对新获取的URL进行二级排重,如二级排重通过,将URL加入全局URL摘要表;爬虫采集子节点将该URL的链接加入到等待队列中。本发明提供的系统及方法通过分级排重机制可以将原来集中在中心节点进行的排重任务通过一级排重分解到各爬虫采集子节点,中心服务器通过二级排重的方式维护一张全局排重表格,十分方便于系统进行扩展,系统的设计、部署与运行变得十分灵活、方便。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供