加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于统计词典模型的未登录词发现和分词系统及方法

发明专利有效专利
  • 申请号:
    CN201410299453.9
  • IPC分类号:G06F17/27;G06F17/30
  • 申请日期:
    2014-06-27
  • 申请人:
    邓柯
著录项信息
专利名称基于统计词典模型的未登录词发现和分词系统及方法
申请号CN201410299453.9申请日期2014-06-27
法律状态授权申报国家中国
公开/公告日2014-11-19公开/公告号CN104156349A
优先权暂无优先权号暂无
主分类号G06F17/27IPC分类号G;0;6;F;1;7;/;2;7;;;G;0;6;F;1;7;/;3;0查看分类表>
申请人邓柯申请人地址
北京市清华大学数学科学中心(近春园西楼)305 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人邓柯当前权利人邓柯
发明人邓柯;刘军
代理机构深圳市鼎言知识产权代理有限公司代理人徐丽昕
摘要
本发明提供一种基于统计词典模型的未登录词发现和分词方法,应用于计算装置中,该方法包括:接收步骤,接收用户输入的文本;构建步骤一,构建初始词典;构建步骤二,利用EM算法和模型选择技术对初始词典进行筛选以得到最终词典;计算步骤,利用对数似然比统计量来计算最终词典中词汇的统计显著性以得到最终词典中词汇的重要性得分,并根据最终词典中词汇的重要性得分对输入文本中所有识别出来的未登录词由高到低进行排序;分析步骤,根据最终词典,通过计算和分析输入文本的每种分词方式的条件概率来实现对输入文本的分词。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供