加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于语义图谱的短文本特征扩展方法

发明专利有效专利
  • 申请号:
    CN201410686237.X
  • IPC分类号:G06F17/30
  • 申请日期:
    2014-11-25
  • 申请人:
    中国科学院自动化研究所
著录项信息
专利名称基于语义图谱的短文本特征扩展方法
申请号CN201410686237.X申请日期2014-11-25
法律状态授权申报国家暂无
公开/公告日2015-03-04公开/公告号CN104391942A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人中国科学院自动化研究所申请人地址
北京市海淀区中关村东路95号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人中国科学院自动化研究所当前权利人中国科学院自动化研究所
发明人徐博;王鹏;王方圆;张恒;郝红卫
代理机构北京瀚仁知识产权代理事务所(普通合伙)代理人宋宝库
摘要
本发明公开了一种基于语义图谱的短文本特征扩展方法,包括以下步骤:利用短文本训练数据集进行主题建模,抽取主题词分布;对主题词分布进行重排序;构建候选关键词词典和主题‑关键词语义图谱;基于链接分析的方法计算候选关键词和种子关键词的综合相似度评价,选择最相似的候选关键词完成对短文本的扩展。本发明方法较基于语言模型的短文本特征表示方法操作简单,执行效率高,而且充分利用关键词之间的语义关联信息,较传统的基于词袋模型的短文本特征表示方法,有效缓解了数据稀疏性问题和语义敏感性问题,不依赖于外部大规模辅助训练语料或者搜索引擎。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供