加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种从单个中文文本中提取多主题词的方法

发明专利无效专利
  • 申请号:
    CN201410179275.6
  • IPC分类号:G06F17/27
  • 申请日期:
    2014-04-29
  • 申请人:
    河海大学
著录项信息
专利名称一种从单个中文文本中提取多主题词的方法
申请号CN201410179275.6申请日期2014-04-29
法律状态撤回申报国家中国
公开/公告日2014-08-06公开/公告号CN103970730A
优先权暂无优先权号暂无
主分类号G06F17/27IPC分类号G;0;6;F;1;7;/;2;7查看分类表>
申请人河海大学申请人地址
江苏省南京市鼓楼区西康路1号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人河海大学当前权利人河海大学
发明人马甲林;王志坚
代理机构南京经纬专利商标代理有限公司代理人朱小兵
摘要
本发明提供了一种从单个中文文本中自动提取多主题词的方法,包含以下步骤:首先使用传统方法对文档进行预处理后初步得到由特征词组成的向量;其次利用《知网》词义与概念间的对应关系对同义词进行归并,根据语义类与上下文语境的相关性对多义词进行排歧,构造概念向量模型表示该文档;再利用《知网》中概念的相关语义信息计算概念相似度,通过“预设种子”的方法改进K-means算法对概念进行聚类,形成多个主题概念簇;最后根据概念和词的对应关系,得到多个子主题词集。该方法考虑了语义信息,克服K-means算法对初始中心的敏感性和时空开销不稳定等缺陷,提高了提取主题的质量。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供