加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种非结构化网页信息的自动采集方法

发明专利无效专利
  • 申请号:
    CN200710170601.7
  • IPC分类号:G06F17/30;H04L29/06
  • 申请日期:
    2007-11-19
  • 申请人:
    上海新纳广告传媒有限公司
著录项信息
专利名称一种非结构化网页信息的自动采集方法
申请号CN200710170601.7申请日期2007-11-19
法律状态撤回申报国家中国
公开/公告日2009-05-27公开/公告号CN101441629
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0;;;H;0;4;L;2;9;/;0;6查看分类表>
申请人上海新纳广告传媒有限公司申请人地址
上海市长宁路1027号42F 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人上海新纳广告传媒有限公司当前权利人上海新纳广告传媒有限公司
发明人金骏;戴斌华
代理机构上海科盛知识产权代理有限公司代理人赵志远
摘要
本发明涉及一种非结构化网页信息的自动采集方法,包括以下步骤:1)蜘蛛采集计算机系统从数据存储装置中读取网址链接表;2)检测网址链接表中是否有待采集的网址,若否,则采集结束;3)若步骤2的检测结果为是,则选择对应于待采集的网址的分解规则;4)创建至少一个线程,该至少一个线程通过所选的分解规则分解当前网址的页面;5)分解完成后,将需保存的网页信息及采集状态信息保存到数据存储装置,并返回步骤2。与现有技术相比,本发明将非结构化的信息从各种网站来源页面中抽取出来保存到结构化的数据库中的系统,通过本发明的方法,可以在信息收集整合方面节约大量的人力与资金。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供