加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于相似度的文本查重方法及系统

发明专利有效专利
  • 申请号:
    CN201711088752.8
  • IPC分类号:G06F17/27;G06F17/30
  • 申请日期:
    2017-11-08
  • 申请人:
    中国科学院计算机网络信息中心
著录项信息
专利名称一种基于相似度的文本查重方法及系统
申请号CN201711088752.8申请日期2017-11-08
法律状态实质审查申报国家中国
公开/公告日2018-05-04公开/公告号CN107992470A
优先权暂无优先权号暂无
主分类号G06F17/27IPC分类号G;0;6;F;1;7;/;2;7;;;G;0;6;F;1;7;/;3;0查看分类表>
申请人中国科学院计算机网络信息中心申请人地址
北京市海淀区中关村南四街4号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人中国科学院计算机网络信息中心当前权利人中国科学院计算机网络信息中心
发明人肖云;王闰强;胡松波;何洪波
代理机构北京君尚知识产权代理事务所(普通合伙)代理人余长江
摘要
本发明提供一种基于相似度的文本查重方法,其步骤包括:对待对比文本进行预处理;从文本数据库中筛选出与所述待对比文本的粗粒度相似度大于一相似候选集阈值的所有候选文本并组成相似候选集;以句子为分段单位,对所述待对比文本和所述候选文本进行分段;通过计算所述候选文本与所述待对比文本的TFIDF相似度、LDA相似度、doc2vec相似度和word2vec相似度来确定细粒度相似度;筛选出细粒度相似度超过一相似判定阈值的候选文本,确定其为所述待对比文本的相似文本,实现查重。本发明还提供一种基于相似度的文本查重系统,以实现上述方法。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供