一种网页特征自适应的信息抽取方法

发明专利无效专利

申请号：
CN201110205137.7
IPC分类号：G06F17/30
申请日期：
2011-07-21
申请人：
华中科技大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种网页特征自适应的信息抽取方法
申请号	CN201110205137.7	申请日期	2011-07-21
法律状态	权利终止	申报国家	中国
公开/公告日	2011-11-23	公开/公告号	CN102254014A
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	华中科技大学	申请人地址	湖北省武汉市洪山区珞喻路1037号变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	华中科技大学	当前权利人	华中科技大学
发明人	金海;李毅;赵峰;严奉伟;陈恒
代理机构	华中科技大学专利中心	代理人	曹葆青

摘要

本发明公开了一种从学术主页中抽取信息的方法，其步骤为：(1)在互联网中发现学术主页；(2)对学术主页进行爬取和解析，使用启发式策略减少无关页面的爬取，加快解析速度；(3)将页面解析成DOM树的形式，并按照元素的属性和内容进行划分，得到内聚的文本单元列表；(4)使用信息识别器对文本单元进行识别，每种信息识别器只识别一种信息类型，对于文章信息还需要进行子字段提取。(5)对抽取结果进行关联分析，利用信息的关联性消除歧义，对缺失字段进行补全；(6)将抽取结果与数据库进行匹配，消除冗余数据，抽取结果以语义数据的形式保存在语义数据库中。本发明通过结合使用启发式规则，机器学习方法和条件概率模型能够高效准确的从学术主页中抽取学术信息。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供