著录项信息
专利名称 | 基于语言知识库的机器翻译方法与装置 |
申请号 | CN200410001187.3 | 申请日期 | 2004-02-04 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2005-08-10 | 公开/公告号 | CN1652106 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/28 | IPC分类号 | G;0;6;F;1;7;/;2;8查看分类表>
|
申请人 | 北京赛迪翻译技术有限公司 | 申请人地址 | 北京市海淀区紫竹院66号赛迪大厦五层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京赛迪翻译技术有限公司 | 当前权利人 | 北京赛迪翻译技术有限公司 |
发明人 | 宋金平 |
代理机构 | 北京君尚知识产权代理事务所 | 代理人 | 邵可声 |
摘要
一种基于语言知识库的英汉机器翻译方法,该方法根据计算机大容量存储、高速度运算的特性,通过对英汉双语语料进行句型标注,建立双语动态句型库,然后以句型库为核心建立双语转换机制,实现机器自动翻译。以及一种利用所述方法完成翻译过程的英汉机器翻译装置。
1.一种基于语言知识库的机器翻译方法,包括以下步骤:
1)建立不同语种语言之间的词典库,语法规则库和句型库;其中词典库存储 不同语种语言相对应的单词、短语;语法规则库存储不同语种语言相对应的语法 规则;句型库存储不同语种语言相对应的句式;
2)通过输入装置输入待翻译的源文;
3)对上述源文进行断句,将源文分解为一个个单句;
4)读取词典库信息,对上述各单句进行切分,将该单句分解为源语言的单词 或短语;
5)读取语法库信息,对切分后的单句进行消兼和简单语法分析,形成源语言 单句的语法树;
6)读取句型库信息,根据源语言语法分析形成的语法树,于句型库中得到匹 配度最高的目标语言句式;
7)根据上述目标语言的句式,按照翻译规则翻译生成目标语言。
2.如权利要求1所述的基于语言知识库的机器翻译方法,其特征在于所述句 型库存储以句式为单位的从源语言到目标语言的翻译模板,所述句式包括常量, 即具体的单词、短语或子句,和变量,即可替换部分。
3.如权利要求1或2所述的基于语言知识库的机器翻译方法,其特征在于所 述句型库分三类构建,其中第一类句式为只有主、谓语,或只有主、谓、宾语的 句型;第二类句式为除了主、谓、宾语,还带有其他句子成分的简单句型,所述 其他成分为状语、补语、或虚词;第三类句式为上述两类句型以外的复杂句型。
4.如权利要求3所述的基于语言知识库的机器翻译方法,其特征在于所述句 式匹配过程按照从第三类句型到第二类句型,再到第一类句型的顺序进行。
5.如权利要求1所述的基于语言知识库的机器翻译方法,其特征在于所述消 兼和语法分析步骤还识别并记录词典库中所没有或不可能收集全的名词短语。
6.一种基于语言知识库的机器翻译装置,包括一存储多语种语言的词典库、 语法规则库和句型库的存储装置,其中词典库存储不同语种语言相对应的单词、 短语,语法规则库存储不同语种语言相对应的语法规则,句型库存储不同语种语 言相对应的句式;源文的录入装置;源文存储装置;翻译引擎,和中央处理器, 以控制翻译引擎完成翻译过程,其中翻译引擎包括句子划分模块,读取源文并将 源文断句;切分和预处理模块,读取存储装置中的词典库,将划分后的单句进行 切分;消兼和语法分析模块,读取存储装置中的语法库,对切分后的单句进行消 兼和简单语法分析,形成语法树;句型匹配模块,读取存储装置中的句型库,根 据语法分析模块形成的语法树,找出句型库中匹配度最高的目标语言句式;译文 生成模块,根据句型匹配模块结果,翻译生成相应的目标语言译文;总控模块, 控制各模块操作。
7.如权利要求6所述的基于语言知识库的机器翻译装置,其特征在于所述句 型库存储以句式为单位的从源语言到目标语言的翻译模板,所述句式包括常量, 即具体的单词、短语或子句,和变量,即可替换部分。
8.如权利要求6或7所述的基于语言知识库的机器翻译装置,其特征在于所 述句型库分三类构建,其中第一类句式为只有主、谓语,或只有主、谓、宾语的 句型;第二类句式为除了主、谓、宾语,还带有其他句子成分的简单句型所述其 他成分为状语,补语,或虚词;第三类句式为上述两类句型以外的复杂句型。
9.如权利要求8所述的基于语言知识库的机器翻译装置,其特征在于所述句 型匹配模块按照从三类句型到二类句型,再到一类句型的顺序进行句型匹配。
10.如权利要求6所述的基于语言知识库的机器翻译装置,其特征在于所述 消兼和语法分析模块还识别并记录词典库未收集的名词短语。
技术领域:\n本发明涉及机器翻译领域,特别是基于语言知识库的机器翻译方法与装置。\n背景技术:\n利用计算机来实现不同语种之间的自动翻译技术,早已为人所熟知。但由于 自然语言的复杂性,利用计算机实现人类不同语言之间的互译问题至今还没有实 用化的解决方案。\n现有的机器翻译方法大多采用基于语法分析规则的方法,如“基于语义的机 器翻译系统及方法”(申请号01131689),该方法根据语义单元表示库,对该句 进行语义分析,从而得到该句的句义表达式;根据语义单元表示库,将该句义表 达式用目的语种的语义单元表示进行展开;将展开后的句子作为译文输出。其实 质是寻找一种“规则描述语言”,用于描述自然语言,使其能被计算机处理。由 于自然语言具有灵活性、复杂性和开放性等特点,规则的建立和完善难度很大。\n现有翻译方法所采用的另一种主要方法是基于语料库统计的方法,如“英汉 翻译机器”(申请号00109235),采用任意常项和任意变项的模板匹配替换通用 算法。这种方法首先要标注双语对齐的语料库,然后利用概率方法建立统计模型, 再通过相似度计算来进行源语言语目标语言的转换。但是,由于语料库中的实例 难以涵盖真实环境中丰富的语言现象,因此,该方法在实际应用中效果也不理想。\n发明内容:\n本发明的目的是提供一种基于语言知识库的机器翻译方法,该方法根据计算 机大容量存储、高速度运算的特性,对不同语种的语料进行句型标注,建立双语 动态句型库,然后以句型库为核心建立双语转换机制,实现机器自动翻译。该方 法既能提供比规则方法更优质的译文,又具有比统计方法更广泛的适应性。\n本发明的另一目的是提供一种基于语言知识库的英汉机器翻译装置,该装置 利用所述基于语言知识库的英汉机器翻译方法实现自动翻译过程。\n本发明的基于语言知识库的机器翻译方法,包括以下步骤:\n1、建立不同语种语言之间的词典库,语法规则库和句型库;其中词典库存 储不同语种语言相对应的单词、短语;语法规则库存储不同语种语言相对应的语 法规则;句型库存储不同语种语言相对应的句式;\n2、通过输入装置输入待翻译的源文;\n3、对上述源文进行断句,将源文分解为一个个单句;\n4、读取词典库信息,对上述各单句进行切分,将该单句分解为源语言的单 词或短语;\n5、读取语法库信息,对切分后的单句进行消兼和语法分析,形成源语言单 句的语法树;\n6、读取句型库信息,根据源语言语法分析形成的语法树,与句型库中的得 到匹配度最高的目标语言句式;\n7、根据上述目标语言的句式,按照翻译规则翻译生成目标语言。\n上述句型库存储以句式为单位的从源语言到目标语言的翻译模板,所述句式 包括常量,即具体的单词、短语或子句,和变量,即可替换部分。\n所述句型库分三类构建,其中第一类句式为只有主、谓语,或只有主、谓、 宾语的句型;第二类句式为除了主、谓、宾语,还带有其他句子成分的简单句型, 所述其他成分为状语、补语、或虚词;第三类句式为上述两类句型以外的复杂句 型。\n所述句式匹配过程按照从第三类句型到第二类句型,再到第一类句型的顺序 进行。\n所述消兼和语法分析步骤还识别并记录词典库中所没有或不可能收集全的 名词或动词短语。\n本发明的基于语言知识库的英汉机器翻译装置,包括一存储多语种语言的词 典库、语法规则库和句型库的存储装置,其中词典库存储不同语种语言相对应的 单词、短语,语法规则库存储不同语种语言相对应的语法规则,句型库存储不同 语种语言相对应的句式;源文的录入装置;源文存储装置;翻译引擎,和中央处 理器,以控制翻译引擎完成翻译过程,其中翻译引擎包括句子划分模块,读取源 文并将源文断句;切分和预处理模块,读取存储装置中的词典库,将划分后的单 句进行切分;消兼和语法分析模块,读取存储装置中的语法库,对切分后的单句 进行消兼和语法分析,形成语法树;句型匹配模块,读取存储装置中的句型库, 根据语法分析模块形成的语法树,找出句型库中匹配度最高的目标语言句式;译 文生成模块,根据句型匹配模块结果,翻译生成相应的目标语言译文;总控模块, 控制各模块操作。\n上述基于语言知识库的机器翻译装置还包括译文存储器,用于存储译文;译 文输出装置,用于输出译文。\n消兼和语法分析模块还识别并存储词典库为登录的名词或动词短语,\n上述句型库存储以句式为单位的从源语言到目标语言的翻译模板,所述句式 包括常量,即具体的单词、短语或子句,和变量,即可替换部分。\n所述句型库分三类构建,其中第一类句式为只有主、谓语,或只有主、谓、 宾语的句型;第二类句式为除了主、谓、宾语,还带有其他句子成分的简单句型 所述其他成分为状语,补语,或虚词;第三类句式为上述两类句型以外的复杂句 型。\n所述句型匹配模块按照从三类句型到二类句型,再到一类句型的顺序进行句 型匹配。\n附图说明:\n以下参照附图详细说明本发明的最佳实施例。\n图1为本发明的英汉机器翻译装置体系结构示意图;\n图2为本发明的英汉机器翻译装置中的翻译引擎示意图;\n图3为本发明的英汉机器翻译装置中的语言知识库结构示意图;\n图4为本发明的英汉机器翻译装置中的句型示意图;\n图5为本发明的英汉机器翻译装置中的句型库结构示意图;\n图6为本发明的英汉机器翻译装置中的句型匹配模块示意图;\n图7为本发明的英汉机器翻译方法的流程示意图;\n图8为本发明的英汉机器翻译方法中的切分步骤示意图;\n图9为本发明的英汉机器翻译方法中的语法分析步骤示意图;\n图10为本发明的英汉机器翻译方法中的句型匹配步骤示意图。\n具体实施方式:\n如图1所示,实施例为一本发明的英汉机器翻译装置,包括一个语言知识库 存储器2,用于储存包括词典库、语法规则库和句型库在内的语言知识库1;一 个文本输入及显示装置3,用于输入并显示待翻译文本;一个中央处理器4,用 于利用翻译引擎6完成翻译过程;以及一个翻译结果输出及显示装置5,用于输 出并显示译文。\n如图2所示,一个翻译引擎最佳实施例包括,总控模块7,用于管理和控制 翻译引擎各模块的工作;句子划分模块8,用于将待翻译英语句子分断成字符串; 切分和预处理模块9,用于将一句英文句子切分成以短语为单位的字符串序列; 消兼与语法分析模块10,用于通过消除兼类和相对简单的语法分析,使切分后 的英文句子形成语法树,进而进行句型匹配;句型匹配模块11,用于将源语言 与句型库中的句型进行匹配,从而实现机器翻译;以及译文生成模块12,用于 在句型匹配的基础上生成译文。\n如图3A所示,一个语言知识库1的最佳实施例包括,一个词典库13,用于 储存英汉双语词典;一个语法库14,用于储存语法规则,供切分、消兼和语法 分析时使用;以及一个句型库15,用于储存句型,供句型匹配时使用。如图3B 所示,词典库13中保存的词条按翻译系统的要求进行了标注,注明了相关的语 义属性。如图3C所示,语法库14中保存的语法规则按照翻译系统的要求规定 了词语或词组的翻译规则。如图3D所示,句型库15中保存的句型按照翻译系 统句型标注的要求对英语句子及其标准译文进行了标注。\n如图4所示,句型的最佳实施例是以句子为单位的从英语源语言到汉语目标 语言的翻译模板,它由常量(词、词组或子句)和可替换部分即变量组成的序列。 制作句型时首先定义句型符号,比如定义{MAN1}表示人,{N[I]}表示时间词 等。句型符号和英文单词组成了句型。\n比如:that is why{SV}-->这就是%1的原因\n{MAN1}{blame}{MAN2}for{Y}-->%1%2[把]%4归咎于%3\n在句型中,{}中的部分是可替换部分即变量,{}以外的部分是常量。{}中保 留动词原形时,如:{blame},表示其变量为该动词的各种时态(现在时、过去 时、将来时)、语态(被动态、进行态、完成态)和语气(虚拟语气)形式。\n有时句型可以完全由常量组成,如:Speaking by telephone-->在电话交谈中。\n如图5所示,一个句型库15的最佳实施例分三类构建,其中一类句型库16 保存只有主、谓语,或只有主、谓、宾语的句型;二类句型库17保存除了主、 谓、宾语,还带有其他句子成分(如状语、定语、虚词)的简单句型;三类句型 库18保存上述两类句型以外的复杂句型。\n如图6所示,一个翻译引擎句型匹配模块的最佳实施例,其句型匹配过程按 照从三类句型到二类句型,再到一类句型的顺序进行。\n如图7所示,本发明的英汉翻译方法的一个最佳实施例包括,以句子为单位 将源语言文本断句,再基于英汉双语词典库将断句后的句子进行切分;对切分处 理后的句子进行消兼和语法分析;然后根据句型库对消兼和语法分析后形成的语 法树进行句型匹配,根据匹配上的句型的译法将句子翻译并输出。\n如图8所示,本发明的英汉翻译方法的切分步骤的最佳实施例采用最大匹配 法,即:先对输入的字符串进行扫描,该技术采用的是正向扫描,即从左到右扫 描,取出第一个单词,然后在切分词典中查找该词,若能找到该词或者能找到以 该词为起始词的短语,就再取第二个单词,与第一个单词组合在一起去查词典, 如此循环,直到在切分词典中不能找到该词,并且也不能找到以该词为起始词的 短语,这时,就开始回朔,先去掉该词的最后一个单词,然后在切分词典中查找 该词,如果能找到该词,则第一个短语就切出来了,否则,就再去掉该词的最后 一个单词,再查词典。切出第一个短语后,重复以上的过程,直到把一个句子切 成一个一个的单词。以The United States is very big.为例,分词程序先读入The 字,查词典,能找到,也就是说单独的The字是一个词,但由于是最大匹配法, 所以不能认为The在这句里就是一个词再读入United字,组成The United,查词 典,不能找到,但词典中存在以The United开头的短语,再读入States,组成 The UnitedStates查词典,能找到,再读入is,组成The United States is,查词典, 找不到,并且以The United States is开头的词也没有,这样向前匹配就到头了, 然后需要回朔,去掉最后一个is,再查,如此反复,找出真正的词,最后分词结 果为The United States/is/very /big/.\n如图9所示,本发明的英汉翻译方法的语法分析步骤的最佳实施例目的是通 过相对简单的语法分析,使切分后的英文句子形成语法树,进而进行句型匹配。 其作用还在于通过简单的词法分析识别词典中所没有或不可能收集全的名词或 动词短语。比如有这么一个结构:the U.S-led war in Iraq,首先,这个结构可以 放在许多句子中,它都相当于一个名词成分,如果词典中收录了这个词,切分程 序会正确地把它切分出来,并且会翻译出准确地译文:美国领导的伊拉克战争。 但是,如果词典中没收录这个结构,而只收录了war in Iraq/伊拉克战争,在这种 情况下,一种方法就是加上这个词the U.S.-led war in Iraq,还有一种方法就是词 法分析,采用的是规则匹配的方法:比如有这么一条规则:定冠词+形容词+名 词==名词短语,而the U.S.-led war in Iraq,正好能匹配上这条规则,所以, 这个名词短语就识别出来了。\n如图10所示,本发明的英汉翻译方法的句型匹配步骤的最佳实施例按照从 三类句型到二类句型,再到一类句型的顺序进行。对于例句:“We cannot rest on our success sofar.SARS may return and we should be ready for it,”said Shigeru Omi, the WHO’s regional director for the Western Pacific.\n经过断句、预处理与切分、消兼与语法分析步骤,形成下面的形式:\n″We【cannot〔rest on〕】【our success 】〔so far〕.SARS【may return】 and we【should 〔be ready for〕】it,″said〔Shigeru Omi〕,【〖the WHO’s regional director〗for 〔the western pacific〕】\n然后用全句搜索句型库,匹配上第三类句型:\n″{X}″said{MAN1||N[!I]},{N[A]&&S_SEM[B|D]}-->%3%2称,“%1”∥ weight=-52\n其中,{x}对应于We【cannot〔rest on〕】【our success】〔so far〕.SARS 【may return】and we【should〔be ready for〕】it;said对应于said;{MAN1||N[!I]} 对应于〔Shigeru Omi〕,{N[A]&&S SEM[B|D]}对应于【〖the WHO’s regional director〗for〔the western pacific〕】。\n然后以分句继续在句型库中搜索,前面第一个分句:\nwe【cannot〔rest on〕】【our success】〔so far〕.SARS 【may return】 and we【should 〔be ready for〕】it.\n匹配上第三类句型:\n{MAN1||N[!I]}{v}{N[!I]}so far{X}-->迄今为止,%TRAN[%1,%2,%3,%4]// weight=-38\n各项的对应关系如下:\n{MAN1||N[!I]}对应于We;{V}对应于【cannot〔rest on〕】;{N[!I]}对应于 【our success 】;so far对应于〔so far〕;{X}对应于SARS【may return】and we 【should〔be ready for〕】it。\n继续搜索子句:\nWe【cannot〔rest on〕】【our success 】.SARS【may return】and we 【should 〔be ready for〕】it.\n匹配上第三类句型:\n{X}.{X}-->%1。%2//weight=-9\n各项的对应关系如下:\n{X}对应于We【cannot〔rest on〕】【our success】;{X}对应于SARS【may return 】and we【should 〔be ready for〕】it。\n继续搜索子句:\nWe 【cannot 〔rest on〕】【our success】匹配上句型:{MAN1||N[!I]}\n{VOI[A]&&E_VAL[1]}\n{MAN2||N[!I]}-->%1%VOF[%2,%3]//weight=-15\n各项的对应关系如下:\n{MAN||[!I}对应于We;{VOI[A]&&E_VAL[1]}对应于于【cannot〔rest on〕】; {MAN2||N[!I]}对应于【our success】。\n继续搜索子句:SARS【may return 】and we 【should 〔be ready for〕】it 匹配上句型:\n{MAN1||N[!I]}{VO}{and}{MAN1}{VO}.-->%TRAN[%1,%2],并且 %TRAN[%4,%5]。//weight=-27\n各项的对应关系如下:\n{MAN1||N[!I]对应于SARS;{VO}对应于【may return】;{and}对应于and; {MAN1}对应于we;{VO}对应于【should〔be ready for〕】it。\n继续搜索子句:\nSARS【may return】we【should〔be ready for〕】it\n匹配上句型:\n{MAN1||N[!I]}{be ready for}{MAN2||N[!I}-->%1%2[为]%3做好准备 //weight=-25\n各项的对应关系如下:\n{MAN1||N[!I]}对应于we;{be ready for}对应于【should〔be ready for〕】; {MAN2||N[!I]}对应于it。\n根据每个句型的相关翻译规则,将句型匹配的结果翻译成目标语言的译文, 最后上述的源语言的翻译结果是:\n负责西太平洋地区的世界卫生组织区域性负责人尾身茂称,“迄今为止,我 们不能停留在我们的成功上。“非典”可能返回,并且我们应该为它做好准备。”\n以上通过本发明的具体实施例对本发明的原理和特征进行了描述。应当理解 本发明不仅仅限于上述的具体实施例,还可以有多种变化,并且具体实施步骤也 可以有区别。本发明的保护范围仅由所附的权利要求限定。
法律信息
- 2013-03-27
未缴年费专利权终止
IPC(主分类): G06F 17/28
专利号: ZL 200410001187.3
申请日: 2004.02.04
授权公告日: 2008.11.26
- 2009-04-01
发明专利公报更正
发明专利公报更正号=48卷=24页码=1022更正项目=发明人误=宋金平正=刘宏烈 徐晓兰 宋金平 肖 健^袁 琦
- 2009-04-01
发明专利说明书更正
发明专利说明书更正号=48卷=24页码=扉页更正项目=发明人误=宋金平正=刘宏烈 徐晓兰 宋金平 肖 健^袁 琦
- 2008-11-26
- 2007-04-18
- 2005-08-10
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |