加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于序列模式的新词发现方法

发明专利有效专利
  • 申请号:
    CN201010503929.8
  • IPC分类号:G06F17/22
  • 申请日期:
    2010-09-30
  • 申请人:
    北京新媒传信科技有限公司
著录项信息
专利名称基于序列模式的新词发现方法
申请号CN201010503929.8申请日期2010-09-30
法律状态授权申报国家中国
公开/公告日2011-02-16公开/公告号CN101976233A
优先权暂无优先权号暂无
主分类号G06F17/22IPC分类号G;0;6;F;1;7;/;2;2查看分类表>
申请人北京新媒传信科技有限公司申请人地址
北京市海淀区万泉庄路28号万柳新贵大厦A座5层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京新媒传信科技有限公司当前权利人北京新媒传信科技有限公司
发明人牟小峰
代理机构北京路浩知识产权代理有限公司代理人王莹
摘要
本发明公开了一种基于序列模式的新词发现方法,该方法包括:步骤A、基于序列模式抽取候选字符串;步骤B、估计候选字符串的成词概率;步骤C、将成词概率大于第一预设阈值的候选字符串作为新词输出。该方法根据已有的序列模式发现算法挖掘得到候选字符串,通过对字符串上下文和内部结构来估计字符串的成词概率,并引入N元语法和分词算法来进行候选字符串的过滤。该方法的优点在于:1)新词发现的计算复杂度大大降低,大大提高了新词发现的速度。2)支持任意长度的新词发现。3)准确率明显超出了已有的新词发现方法,通过采用全新的字符串成词概率估计和垃圾串过滤策略,本方法的新词发现准确率大大提高。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供