加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种双语语料库过滤方法及系统

发明专利无效专利
  • 申请号:
    CN200710178309.X
  • IPC分类号:G06F17/27
  • 申请日期:
    2007-11-28
  • 申请人:
    北京金山软件有限公司;北京金山数字娱乐科技有限公司;哈尔滨工业大学
著录项信息
专利名称一种双语语料库过滤方法及系统
申请号CN200710178309.X申请日期2007-11-28
法律状态权利终止申报国家暂无
公开/公告日2008-06-18公开/公告号CN101201820
优先权暂无优先权号暂无
主分类号G06F17/27IPC分类号G;0;6;F;1;7;/;2;7查看分类表>
申请人北京金山软件有限公司;北京金山数字娱乐科技有限公司;哈尔滨工业大学申请人地址
北京市海淀区北四环中路238号柏彦大厦20层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京金山软件有限公司,北京金山数字娱乐科技有限公司,哈尔滨工业大学当前权利人北京金山软件有限公司,北京金山数字娱乐科技有限公司,哈尔滨工业大学
发明人王刚;高立琦;刘挺;王海洲
代理机构北京集佳知识产权代理有限公司代理人逯长明
摘要
本发明公开一种双语语料库过滤方法,包括以下步骤:A、确定英汉双语句对的句长比例特征值;B、分别统计英汉双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译性特征值;C、根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。本发明公开一种双语语料库系统。本发明提供一种双语语料库的过滤方法及系统,用于提高语料库通用性、准确率和召回率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供