加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于主题模型的文本关键词提取方法

发明专利无效专利
  • 申请号:
    CN201410000751.3
  • IPC分类号:G06F17/27
  • 申请日期:
    2014-01-02
  • 申请人:
    上海大学
著录项信息
专利名称一种基于主题模型的文本关键词提取方法
申请号CN201410000751.3申请日期2014-01-02
法律状态权利终止申报国家中国
公开/公告日2014-04-23公开/公告号CN103744835A
优先权暂无优先权号暂无
主分类号G06F17/27IPC分类号G;0;6;F;1;7;/;2;7查看分类表>
申请人上海大学申请人地址
上海市宝山区上大路99号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人上海大学当前权利人上海大学
发明人陈雪;汤文清
代理机构上海上大专利事务所(普通合伙)代理人陆聪明
摘要
本发明公开了一种基于主题模型的文本关键词提取方法,该方法首先利用主题模型的方法从大量文本训练集中由主题模型训练得到的词项与主题之间的训练文本集的词项与主题的概率矩阵WT,进而得到候选关键词集合A中词项与主题的概率向量的集合所组成的候选的关键词的词项与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D,通过候选关键词词项的权重向量和文本的主题向量,利用候选关键词语主题的概率矩阵B进行循环计算操作,得到最终修正后的文本主题向量和词项权重比例向量,进而提取出文本的关键词。该方法降低文本由于不同长度所提取关键词的误差,提取更能适合表达文本内容的关键词。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供