加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于伪数据改进分词器以处理自然语言

发明专利有效专利
  • 申请号:
    CN201680008451.7
  • IPC分类号:G06F40/289;G06F40/58
  • 申请日期:
    2016-02-01
  • 申请人:
    微软技术授权有限责任公司
著录项信息
专利名称基于伪数据改进分词器以处理自然语言
申请号CN201680008451.7申请日期2016-02-01
法律状态授权申报国家中国
公开/公告日2018-06-05公开/公告号CN108124477A
优先权暂无优先权号暂无
主分类号G06F40/289IPC分类号G;0;6;F;4;0;/;2;8;9;;;G;0;6;F;4;0;/;5;8查看分类表>
申请人微软技术授权有限责任公司申请人地址
美国华盛顿州 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人微软技术许可有限责任公司当前权利人微软技术许可有限责任公司
发明人赵兵;E·张
代理机构永新专利商标代理有限公司代理人王英
摘要
提供了用于训练分词器(词语分割器)的技术。在一种技术中,分词器切分标记串以识别单独标记或词语。语言模型基于识别的标记或词语而生成。关于诸如个人或公司的实体的词汇表被识别。词汇表可以是涉及实体的在线数据,例如新闻文章或社交网络的成员的简档页面。词汇表中的一些标记可以具有高于其它标记的权重。语言模型接受加权的词汇表作为输入并生成伪句子。替代地,正规表达式被用来生成伪句子。伪句子被用来训练分词器。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供