加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于深度学习的无监督文本检索方法

发明专利有效专利
  • 申请号:
    CN202110597764.3
  • IPC分类号:G06F16/33;G06F40/126;G06F40/216;G06F40/284
  • 申请日期:
    2021-05-31
  • 申请人:
    中国科学院深圳先进技术研究院;深圳得理科技有限公司
著录项信息
专利名称一种基于深度学习的无监督文本检索方法
申请号CN202110597764.3申请日期2021-05-31
法律状态授权申报国家中国
公开/公告日2021-08-13公开/公告号CN113254586A
优先权暂无优先权号暂无
主分类号G06F16/33IPC分类号G;0;6;F;1;6;/;3;3;;;G;0;6;F;4;0;/;1;2;6;;;G;0;6;F;4;0;/;2;1;6;;;G;0;6;F;4;0;/;2;8;4查看分类表>
申请人中国科学院深圳先进技术研究院;深圳得理科技有限公司申请人地址
广东省深圳市南山区深圳大学城学苑大道1068号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人中国科学院深圳先进技术研究院,深圳得理科技有限公司当前权利人中国科学院深圳先进技术研究院,深圳得理科技有限公司
发明人杨敏;贺倩明;方正
代理机构北京市诚辉律师事务所代理人耿慧敏;朱伟军
摘要
本发明公开了一种基于深度学习的无监督文本检索方法。该方法包括:对于待查询文本,根据其文本向量与数据库中存储的被匹配文本的文本向量的相似度返回检索结果,其中,被匹配文本的文本向量根据以下步骤生成:对于输入文本,基于注意力机制的预训练模型挖掘词语间的语义联系,将文本序列转换成词向量序列;对于得到的词向量序列,结合领域内词汇的平滑逆频率对词向量进行加权,生成第一文本向量,其中所述领域内词汇的平滑倒频率反映词语在领域文献中的出现次数;获取领域内文本向量的主成分,并从所述第一文本向量中减去对应的主成分,获得第二文本向量,作为文本向量存储。利用本发明能够提升检索的准确性和效率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供