加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

词语提取方法及装置

发明专利有效专利
  • 申请号:
    CN201210218450.9
  • IPC分类号:G06F17/30
  • 申请日期:
    2012-06-28
  • 申请人:
    华为技术有限公司
著录项信息
专利名称词语提取方法及装置
申请号CN201210218450.9申请日期2012-06-28
法律状态授权申报国家中国
公开/公告日2014-01-15公开/公告号CN103514213A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人华为技术有限公司申请人地址
广东省深圳市龙岗区坂田华为总部办公楼 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人华为技术有限公司当前权利人华为技术有限公司
发明人贾江涛;顾翀
代理机构北京三高永信知识产权代理有限责任公司代理人黄厚刚
摘要
本发明公开了一种词语抽取方法,属于信息检索领域。所述方法包括:获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;处理所述目标文档获得候选词语;根据文档信息计算每个候选词语的词频TF和反向文档频率IDF;根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。本发明通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,可以达到提取到的词语在领域上更加相关、地域上更加相关或时间上更加相关的效果。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供