加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于词频和多元文法的新闻关键词抽取方法

发明专利无效专利
  • 申请号:
    CN200710177074.2
  • IPC分类号:G06F17/30;G06F17/27
  • 申请日期:
    2007-11-09
  • 申请人:
    清华大学
著录项信息
专利名称一种基于词频和多元文法的新闻关键词抽取方法
申请号CN200710177074.2申请日期2007-11-09
法律状态权利终止申报国家中国
公开/公告日2008-06-11公开/公告号CN101196904
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;7;/;2;7查看分类表>
申请人清华大学申请人地址
北京市海淀区清华园 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人清华大学当前权利人清华大学
发明人李涓子;樊绮娜;李军;唐杰;张鹏;许斌
代理机构北京思海天达知识产权代理有限公司代理人楼艮基
摘要
一种基于词频和多元文法的新闻关键词抽取方法属于自然语言处理技术领域,其特征在于,通过研究关键词的特征词性,利用计算机辅助挖掘,提取出关键词的多元文法的潜在词性模式,并将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。本申请提出一个改进的单文本词汇频率/逆文本频率值(tf/idf)公式,引入有针对性的特征,对候选关键词进行评分,得出候选关键词的排名,进行结果优化后给出该新闻文档的关键词。该方法与传统的基于单文本词汇频率/逆文本频率值(tf/idf)的关键词抽取方法比较,在准确率相同的情况下,召回率更高些。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供