加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种网页特征自适应的信息抽取方法

发明专利无效专利
  • 申请号:
    CN201110205137.7
  • IPC分类号:G06F17/30
  • 申请日期:
    2011-07-21
  • 申请人:
    华中科技大学
著录项信息
专利名称一种网页特征自适应的信息抽取方法
申请号CN201110205137.7申请日期2011-07-21
法律状态权利终止申报国家中国
公开/公告日2011-11-23公开/公告号CN102254014A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人华中科技大学申请人地址
湖北省武汉市洪山区珞喻路1037号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人华中科技大学当前权利人华中科技大学
发明人金海;李毅;赵峰;严奉伟;陈恒
代理机构华中科技大学专利中心代理人曹葆青
摘要
本发明公开了一种从学术主页中抽取信息的方法,其步骤为:(1)在互联网中发现学术主页;(2)对学术主页进行爬取和解析,使用启发式策略减少无关页面的爬取,加快解析速度;(3)将页面解析成DOM树的形式,并按照元素的属性和内容进行划分,得到内聚的文本单元列表;(4)使用信息识别器对文本单元进行识别,每种信息识别器只识别一种信息类型,对于文章信息还需要进行子字段提取。(5)对抽取结果进行关联分析,利用信息的关联性消除歧义,对缺失字段进行补全;(6)将抽取结果与数据库进行匹配,消除冗余数据,抽取结果以语义数据的形式保存在语义数据库中。本发明通过结合使用启发式规则,机器学习方法和条件概率模型能够高效准确的从学术主页中抽取学术信息。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供