加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种网页锚文本去噪系统及方法

发明专利有效专利
  • 申请号:
    CN200710308504.X
  • IPC分类号:G06F17/30
  • 申请日期:
    2007-12-29
  • 申请人:
    腾讯科技(深圳)有限公司
著录项信息
专利名称一种网页锚文本去噪系统及方法
申请号CN200710308504.X申请日期2007-12-29
法律状态暂无申报国家暂无
公开/公告日2008-07-09公开/公告号CN101216836
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人腾讯科技(深圳)有限公司申请人地址
广东省深圳市南山区粤海街道科技中一路腾讯大厦16层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人腾讯科技(深圳)有限公司,深圳市世纪光速信息技术有限公司当前权利人腾讯科技(深圳)有限公司,深圳市世纪光速信息技术有限公司
发明人徐建军
代理机构北京派特恩知识产权代理事务所(普通合伙)代理人张颖玲;王黎延
摘要
本发明公开了一种网页锚文本去噪系统,包括语料爬虫系统、原始网页数据库、原始正文数据库,关键在于,该系统还包括语料自动训练单元、锚文本去噪单元、锚文本数据库以及基本词表和中心词表;其中,语料自动训练单元,用于根据基本词表对原始网页进行迭代训练,分析出网页包含的中心词,并利用得到的中心词更新基本词表和中心词表;锚文本去噪单元,根据更新的中心词表或基本词表、以及原始正文数据,对原始网页锚文本进行去噪处理,得到过滤后的网页锚文本;锚文本数据库,用于存储网页锚文本。本发明还同时公开了一种网页锚文本去噪方法,采用本发明能为用户提供更高质量的网页锚文本数据,提高用户的网页搜索效率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供