一种web文本信息抽取方法

发明专利无效专利

申请号：
CN201510467581.4
IPC分类号：G06F17/30
申请日期：
2015-07-31
申请人：
山东大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种web文本信息抽取方法
申请号	CN201510467581.4	申请日期	2015-07-31
法律状态	撤回	申报国家	中国
公开/公告日	2015-11-25	公开/公告号	CN105095466A
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	山东大学	申请人地址	山东省济南市历城区山大南路27号变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	山东大学	当前权利人	山东大学
发明人	刘琚;彭寿钧;郑丽娜
代理机构	济南圣达知识产权代理有限公司	代理人	李健康

摘要

本发明提供一种web信息抽取方法以解决现有的信息抽取方法的高复杂性和低准确率问题。所述方法包括：获取HTML源码并将其加载至第一内存区；构造HTML解析器，结合页面标签分布对HTML源码解析，保存解析后的数据至第二内存区；定义单元窗，移动单元窗口对窗口内数据进行一次特征统计，依次采用噪声方差和文本相似度作为二次特征进一步排除噪声，得到各窗口密度量化值；根据样本数据，归纳密度阈值与各窗口文本密度的关系，制定合理的抽取方案；最后进入文本整合模块，输出格式规范的文本。综上所述，本发明针对HTML源码采用了加载-解析-量化-选择-输出的处理方案，根据文本密度相对值自动适应不同web网页，能够处理大量网站网页并且自动抽取网页信息。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供