基于统计词典模型的未登录词发现和分词系统及方法

发明专利有效专利

申请号：
CN201410299453.9
IPC分类号：G06F17/27;G06F17/30
申请日期：
2014-06-27
申请人：
邓柯

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	基于统计词典模型的未登录词发现和分词系统及方法
申请号	CN201410299453.9	申请日期	2014-06-27
法律状态	授权	申报国家	中国
公开/公告日	2014-11-19	公开/公告号	CN104156349A
优先权	暂无	优先权号	暂无
主分类号	G06F17/27 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/20 处理自然语言数据的（语言分析或综合入G10L）〔6〕 G06F17/27 自动分析的，例如语法分析、正射校正的〔6〕	IPC分类号	G;0;6;F;1;7;/;2;7;;;G;0;6;F;1;7;/;3;0查看分类表>
申请人	邓柯	申请人地址	北京市清华大学数学科学中心（近春园西楼）305 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	邓柯	当前权利人	邓柯
发明人	邓柯;刘军
代理机构	深圳市鼎言知识产权代理有限公司	代理人	徐丽昕

摘要

本发明提供一种基于统计词典模型的未登录词发现和分词方法，应用于计算装置中，该方法包括：接收步骤，接收用户输入的文本；构建步骤一，构建初始词典；构建步骤二，利用EM算法和模型选择技术对初始词典进行筛选以得到最终词典；计算步骤，利用对数似然比统计量来计算最终词典中词汇的统计显著性以得到最终词典中词汇的重要性得分，并根据最终词典中词汇的重要性得分对输入文本中所有识别出来的未登录词由高到低进行排序；分析步骤，根据最终词典，通过计算和分析输入文本的每种分词方式的条件概率来实现对输入文本的分词。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供