加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种有效网页内容的抓取方法及装置

发明专利无效专利
  • 申请号:
    CN201010196364.3
  • IPC分类号:G06F17/30
  • 申请日期:
    2010-06-03
  • 申请人:
    北京迅捷英翔网络科技有限公司
著录项信息
专利名称一种有效网页内容的抓取方法及装置
申请号CN201010196364.3申请日期2010-06-03
法律状态撤回申报国家中国
公开/公告日2011-12-07公开/公告号CN102270206A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人北京迅捷英翔网络科技有限公司申请人地址
北京市东城区东直门南大街1号来福士中心办公楼10层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京迅捷英翔网络科技有限公司当前权利人北京迅捷英翔网络科技有限公司
发明人贾海禄
代理机构隆天国际知识产权代理有限公司代理人张浴月;刘文意
摘要
本发明公开了一种有效网页内容的抓取方法及装置,所述方法包括以下步骤:步骤S1:导入超文本链接标示语言HTML网页;步骤S2:将所述HTML网页转换成相应的文档树结构;步骤S3:根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;步骤S4:在所述文档树结构的标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。本发明能够简单、方便地实现对通用的HTML结构网页进行有效信息的抽取。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供