加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种网页信息抽取方法及其系统

发明专利有效专利
  • 申请号:
    CN201110047743.0
  • IPC分类号:G06F17/30
  • 申请日期:
    2011-02-28
  • 申请人:
    腾讯科技(深圳)有限公司
著录项信息
专利名称一种网页信息抽取方法及其系统
申请号CN201110047743.0申请日期2011-02-28
法律状态授权申报国家中国
公开/公告日2012-08-29公开/公告号CN102651002A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人腾讯科技(深圳)有限公司申请人地址
变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人深圳市世纪光速信息技术有限公司当前权利人深圳市世纪光速信息技术有限公司
发明人王传刚;杨巍;张立明
代理机构北京华沛德权律师事务所代理人刘杰
摘要
本发明公开了一种网页信息抽取方法及其系统,该方法包括:将待抽取网页解析为文档对象模型DOM树,获取与待抽取网页对应的模板;根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。采用本发明可提高网页信息抽取精度。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供