加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种检测文本重复的方法

发明专利有效专利
  • 申请号:
    CN201110029493.8
  • IPC分类号:G06F17/22
  • 申请日期:
    2011-01-27
  • 申请人:
    北京邮电大学
著录项信息
专利名称一种检测文本重复的方法
申请号CN201110029493.8申请日期2011-01-27
法律状态授权申报国家中国
公开/公告日2011-06-01公开/公告号CN102081598A
优先权暂无优先权号暂无
主分类号G06F17/22IPC分类号G;0;6;F;1;7;/;2;2查看分类表>
申请人北京邮电大学申请人地址
北京市海淀区西土城路10号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京邮电大学当前权利人北京邮电大学
发明人李蕾;聂洋;赵青
代理机构北京德琦知识产权代理有限公司代理人谢安昆;宋志强
摘要
本发明公开了一种检测文本重复的方法:根据一文本中每一个词语的TF值及其是否在标题中出现得到该词语的权值,顺序从文本中取出权值最高的若干词语作为关键词集框架;对于得到关键词集框架的任意两篇文本,依次判断一篇文本关键词集框架中的每一个词语是否在另一篇文本的关键词集框架中,当该词语属于两篇文本的关键词集框架、且在两篇文本中的权值匹配时,将表征匹配程度的匹配值加1,直至一篇文本关键词集框架中最后一个词语,根据得到的匹配值得到两篇文本的相似度;根据相似度及一相似度阈值判断出两篇文本是否为重复的文本。应用本发明所述的检测文本重复的方法,能够有效地检测出信息重复的文本,提高在众多文本中查找有效信息的效率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供