加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于文本结构权重的主题区域识别方法

发明专利无效专利
  • 申请号:
    CN201110302004.1
  • IPC分类号:G06F17/30
  • 申请日期:
    2011-09-28
  • 申请人:
    武汉大学
著录项信息
专利名称基于文本结构权重的主题区域识别方法
申请号CN201110302004.1申请日期2011-09-28
法律状态权利终止申报国家中国
公开/公告日2012-01-04公开/公告号CN102306204A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人武汉大学申请人地址
湖北省武汉市武昌区珞珈山武汉大学 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人武汉大学当前权利人武汉大学
发明人徐武平;徐爱萍;杨少博
代理机构武汉科皓知识产权代理事务所(特殊普通合伙)代理人薛玲
摘要
本发明提出了基于文本结构权重的主题区域识别方法,该方法基于树结构,将Web网页解析为标签树,在树匹配基础上,改进了数据区域挖掘和语义链接块识别技术,实现了去链接的预处理;提出了文本结构权重的概念,并采用文本结构权重的计算结果识别主题区域;最后采用归一化的方法计算主题区域内的文本结点相对长度值,利用归一化相对长度值,有效的去除和主题内容无关的文本节点实现了主题区域去噪,得到准确的主题内容。应用本发明技术方案能准确快速的挖掘出Web上有价值的信息,有着广阔的应用前景。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供