加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种网页爬虫方法、装置以及电子设备

发明专利无效专利
  • 申请号:
    CN201810082538.X
  • IPC分类号:G06F17/30;G06F8/35;G06F8/41
  • 申请日期:
    2018-01-29
  • 申请人:
    湖北省楚天云有限公司
著录项信息
专利名称一种网页爬虫方法、装置以及电子设备
申请号CN201810082538.X申请日期2018-01-29
法律状态驳回申报国家暂无
公开/公告日2018-07-27公开/公告号CN108334585A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0;;;G;0;6;F;8;/;3;5;;;G;0;6;F;8;/;4;1查看分类表>
申请人湖北省楚天云有限公司申请人地址
湖北省武汉市东湖开发区花城大道9号软件新城1.1期A2栋1-3层、4层(2)号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人湖北省楚天云有限公司当前权利人湖北省楚天云有限公司
发明人罗立志
代理机构北京国帆知识产权代理事务所(普通合伙)代理人王荣
摘要
本说明书实施例公开了一种网页爬虫方法、装置以及电子设备,所述方法包括:基于配置模板,设置配置信息;其中,所述配置信息包括列表页配置信息和详细页配置信息;根据所述列表页配置信息,爬取列表页信息;基于获取的所述列表页信息和所述详细页配置信息,爬取指定信息。通过配置模板将配置信息和代码进行解耦,降低底层代码与爬虫配置的依赖性,不需要用户再对待爬取网页的规则和内容进行分析,可以满足新增需求而不用修改代码的目的;降低代码的维护成本,提高代码利用效率。同时,该配置模板中预设有对应多种网址规则、字段规则、网页编码类型等的配置信息,可以满足用户多种需求和扩展需求,也扩大了代码的适用范围。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供