加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

面向深层网页面数据自动抽取方法

发明专利无效专利
  • 申请号:
    CN201210086024.4
  • IPC分类号:G06F17/30
  • 申请日期:
    2012-03-28
  • 申请人:
    重庆大学
著录项信息
专利名称面向深层网页面数据自动抽取方法
申请号CN201210086024.4申请日期2012-03-28
法律状态权利终止申报国家中国
公开/公告日2012-09-12公开/公告号CN102663041A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人重庆大学申请人地址
重庆市沙坪坝区沙正街174号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人重庆大学当前权利人重庆大学
发明人冯永;王慧娟;钟将;周尚波;李季
代理机构重庆市前沿专利事务所(普通合伙)代理人郭云
摘要
本发明公开了一种面向深层网页面数据自动抽取方法,属于计算机数据挖掘领域,首先获取同一站点的两个深层网页面,分别标记为页面一和页面二;用HTMLTidy转换工具将页面一和页面二的HTML文档转换为XHTML文档;然后对页面一和页面二进行清噪处理;将页面一和页面二进行重复模式消除处理后生成网页数据抽取包装器;提取页面时先将待抽取数据的页面进行清噪处理;然后用网页数据抽取包装器先对经过清噪后的页面进行标记,最后抽取标记后的页面,本发明提高了重复模式消除算法和匹配算法的效率,降低了抽取复杂度,该方法中针对重复模式消除算法的特征而设计的匹配算法和抽取算法过程简单快速,同时提高了数据抽取的准确率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供