加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种web文本信息抽取方法

发明专利无效专利
  • 申请号:
    CN201510467581.4
  • IPC分类号:G06F17/30
  • 申请日期:
    2015-07-31
  • 申请人:
    山东大学
著录项信息
专利名称一种web文本信息抽取方法
申请号CN201510467581.4申请日期2015-07-31
法律状态撤回申报国家中国
公开/公告日2015-11-25公开/公告号CN105095466A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人山东大学申请人地址
山东省济南市历城区山大南路27号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人山东大学当前权利人山东大学
发明人刘琚;彭寿钧;郑丽娜
代理机构济南圣达知识产权代理有限公司代理人李健康
摘要
本发明提供一种web信息抽取方法以解决现有的信息抽取方法的高复杂性和低准确率问题。所述方法包括:获取HTML源码并将其加载至第一内存区;构造HTML解析器,结合页面标签分布对HTML源码解析,保存解析后的数据至第二内存区;定义单元窗,移动单元窗口对窗口内数据进行一次特征统计,依次采用噪声方差和文本相似度作为二次特征进一步排除噪声,得到各窗口密度量化值;根据样本数据,归纳密度阈值与各窗口文本密度的关系,制定合理的抽取方案;最后进入文本整合模块,输出格式规范的文本。综上所述,本发明针对HTML源码采用了加载-解析-量化-选择-输出的处理方案,根据文本密度相对值自动适应不同web网页,能够处理大量网站网页并且自动抽取网页信息。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供