加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于指定电子商务网站的定向爬虫的实现方法

发明专利无效专利
  • 申请号:
    CN201410266881.1
  • IPC分类号:G06F9/48
  • 申请日期:
    2014-06-13
  • 申请人:
    淮阴工学院
著录项信息
专利名称一种基于指定电子商务网站的定向爬虫的实现方法
申请号CN201410266881.1申请日期2014-06-13
法律状态撤回申报国家中国
公开/公告日2014-09-17公开/公告号CN104050037A
优先权暂无优先权号暂无
主分类号G06F9/48IPC分类号G;0;6;F;9;/;4;8查看分类表>
申请人淮阴工学院申请人地址
江苏省淮安市高教园区枚乘东路1号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人淮阴工学院当前权利人淮阴工学院
发明人朱全银;周泓;李翔;潘禄;刘文儒;戎圣吉;张宇洋;曹苏群;王留洋;周蕾
代理机构暂无代理人暂无
摘要
本发明公开了一种基于指定电子商务网站的定向爬虫的实现方法,本发明属于WEB数据采集领域,为提高爬虫的分析效率、爬准率,降低因网页内容变动地而导致的爬虫失效率,提高代码的可读性和健壮性;在广义爬虫的基础上,利用队列对任务的顺序进行管理、使用线程池管理机制实现多线程的网页内容分析来提高爬取效率,利用Python作为实现语言,使用CSS选择器和正则表达式结合的手法对指定页面信息进行抓取,大幅提高了爬虫的分析效率、可读性及容错率,从而形成的一种专用于分析指定电子商务网站商城商品信息的聚焦爬虫,该方法提高了爬虫的效率与爬准率,增强了爬虫的适应性和健壮性。本发明为电商价格分析提供了一种稳定便利的数据来源。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供