加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

多特征融合的文本相似性度量系统

发明专利有效专利
  • 申请号:
    CN201510072955.2
  • IPC分类号:G06F17/30
  • 申请日期:
    2015-02-11
  • 申请人:
    中国科学院新疆理化技术研究所
著录项信息
专利名称多特征融合的文本相似性度量系统
申请号CN201510072955.2申请日期2015-02-11
法律状态授权申报国家中国
公开/公告日2015-06-10公开/公告号CN104699763A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人中国科学院新疆理化技术研究所申请人地址
新疆维吾尔自治区乌鲁木齐市北京南路40号附1号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人中国科学院新疆理化技术研究所当前权利人中国科学院新疆理化技术研究所
发明人马博;李晓;蒋同海;周喜;王磊;杨雅婷;赵凡
代理机构乌鲁木齐中科新兴专利事务所代理人张莉
摘要
本发明提供了一种涉及智能信息处理领域的基于多特征融合的文本相似性度量系统,该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失问题,以及文本长度相差较大时所带来的相似性结果精度低的问题。本发明所述系统包括以下步骤:对训练文本进行分词、去停用词等预处理;将处理好的训练文本语料训练成词向量模型;对于输入的待计算文本对,分别度量它们之间的基于词频的相似性、基于词向量的相似性以及基于维基百科标签的相似性,并通过加权求和,得到最终的文本语义相似性度量结果。本发明所述的系统能够提高文本相似性度量精度,从而满足智能信息处理需求。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供