加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

多语混合文本的分句方法和装置

发明专利有效专利
  • 申请号:
    CN201310544947.4
  • IPC分类号:G06F17/22;G06F17/28
  • 申请日期:
    2013-11-06
  • 申请人:
    北京百度网讯科技有限公司
著录项信息
专利名称多语混合文本的分句方法和装置
申请号CN201310544947.4申请日期2013-11-06
法律状态授权申报国家中国
公开/公告日2014-02-05公开/公告号CN103559172A
优先权暂无优先权号暂无
主分类号G06F17/22IPC分类号G;0;6;F;1;7;/;2;2;;;G;0;6;F;1;7;/;2;8查看分类表>
申请人北京百度网讯科技有限公司申请人地址
北京市海淀区上地十街10号百度大厦2层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京百度网讯科技有限公司当前权利人北京百度网讯科技有限公司
发明人吴礼文;刘红雨;何中军;吴华
代理机构北京清亦华知识产权代理事务所(普通合伙)代理人宋合成
摘要
本发明提出一种多语混合文本的分句方法,其中该方法包括以下步骤:获取多语混合文本,并获取多语混合文本的字符编码;根据字符编码确定多语混合文本的第一类分割点;以及根据第一类分割点将多语混合文本分割为多个分句。本发明实施例的多语混合文本的分句方法,根据多语混合文本的字符编码,确定第一类分割点,并将多语混合文本分割为多个分句,能够在多语混合文本中由于格式混乱,或者在标点缺失的情况下有效进行句子划分,提高了分句的准确性。此外,提高了多语语料的召回率,为翻译系统提供了丰富的语料资源,保证翻译系统的质量。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供