著录项信息
专利名称 | 双语句对模式化记录方法以及翻译方法和翻译系统 |
申请号 | CN200910162384.6 | 申请日期 | 2009-08-14 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | | 公开/公告号 | |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/28 | IPC分类号 | G;0;6;F;1;7;/;2;8查看分类表>
|
申请人 | 暂无 | 申请人地址 | 北京市朝阳区北四环东路116号西塔707室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 张龙哺 | 当前权利人 | 张龙哺 |
发明人 | 张龙哺 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
一种双语句对模式化记录方法,用于将一个原文句子与一个相应的译文句子以对应的方式记录在记录介质上,其中将原文句子记录在记录介质的第一部分,将译文句子记录在记录介质的第二部分;在所述第二部分的译文句子中,记录常规单元和模式化单元;在所述模式化单元中,用预定格式记录译文单元内容以及对应的原文单元信息,比如原文单元内容以及原文单元的词性、属性或句中序号等信息,或者是上述多种信息的任意组合。以及基于双语模式化句对的翻译方法和翻译系统。
双语句对模式化记录方法以及翻译方法和翻译系统\n发明领域\n[0001] 本发明涉及计算机翻译技术领域,更具体地,涉及双语句对模式化记录方法以及基于双语模式化句对的翻译方法和翻译系统。\n[0002] 发明背景\n[0003] 语言翻译是一门科学、一门艺术。由于语言的种类繁多、干变万化。要使一种语言转换成另一种语言,需要付出大量创造性的劳动。自从上个世纪30年代,人们就提出了机器翻译的设想。随着计算机技术的发展,先后出现了各种类型的计算机翻译系统和技术,比如ED(电子词典)、MT(机器翻译)、TM(翻译存储器)、IT(交互翻译)和CAT(计算机辅助翻译)等等。\n[0004] 这些系统分别用不同的方法针对自然语言的某些方面进行语言转换工作。其中,电子词典只能对单词进行翻译或查找。\n[0005] 传统的MT技术是基于语法规则对语言进行转换,其中语法规则是语言专家撰写的,并由程序员写在翻译程序中的,它只能由程序员添加和修改。由于语言的丰富性和灵活性,靠少量的语法规则是不可能覆盖所有的语言现象的。因此传统的MT技术不能获得好的翻译质量,尤其是针对长句子和句型复杂的句子。\n[0006] 随着计算机运算速度和记录介质的存储容量的迅速提高,人们于上世纪90年代提出了基于统计的翻译技术,即翻译存储器技术(TM)。其基本思路是海量存储双语句对,对于已经翻译过或已存储的原文句子,只要提取出相应的译文,就能得到准确的翻译结果。因此,TM技术为计算机翻译技术指出了一条高质量准确翻译的方向。\n[0007] 图1A示出传统的采用TM翻译技术的翻译方案。其中,TM翻译模式将输入的原文句子与语料库的双语句对的原文部分相比较(匹配)。如果完全匹配或满足规定的匹配率,则将双语句对的译文部分作为TM翻译结果输出。\n[0008] 图1B显示了传统的句对记录方法所记录的句对例子。即在左边部分记录原文,在右边部分记录译文,中间用分隔符分开。其中,原文和译文都是常规的文字内容,即单词(字)、标点符号等。其中,除了原文与译文之间的分隔符之外,不存在其它用于帮助翻译的信息。因此,这种句对的作用是非常有限的。也就是说,除了相同的句子能给出准确的翻译结果外,对于类似的句子也不能给出准确的翻译结果。\n[0009] 因此,使用传统的TM技术,就必须积累所有可能出现的句子和翻译句对。但由于语言的灵活性和丰富性,以及各个作者写作的随意性,要积累某种翻译语言对中所有句子几乎是不可能完成的事情。这是因为所说句子量是无限的或不可估量的。在实践中,我们在某个专业中积累了几十万个句对,花费了许多人力和财力,但在进行翻译测试时,只有千分之几的覆盖率。因此,TM计算机翻译技术又碰到了巨大的障碍。由此,人们反过来又想起传统MT技术的好处了,即用少量的语法规则或句型来覆盖更多的句子。或者将MT技术与TM技术结合起来,形成多策略的翻译技术。\n[0010] 本发明人于上世纪80年代开始研究计算机翻译技术,并于2003年开始研究智能化知识库理论以及相应的计算机智能翻译技术,尤其是其中的智能化翻译句对记录和存储技术,即采用人工智能方式来提高翻译句对的使用效率,也称为覆盖率,相关的信息可以参见爱译网:www.aitrans.net。\n[0011] 另外,近几年也出现了一些TM改进技术,比如将句型用于TM技术方案,其目的是用句型库中存储的句型来覆盖更多的句子。其原理是将翻译的例句抽象成为一个句型,在翻译时也先将要翻译的句子进行语法分析并抽象为一个语法树结构,然后再用上述句型与要翻译的句子进行译文的创建(翻译)。这种方法实际上又回到了传统MT技术的老路上,首先是因为将例句抽象成语法句型是一件很费时且费力的工作,而且不能自动进行。另外,虽然采用句型可提高翻译的覆盖率,即增强了普遍性,但同时它也损失了句子的独特性,反而会影响独特句子的翻译准确性。由于句型匹配算法的不完善并且缺乏有效的句型积累手段,目前还没有看到这种技术的实用化例子。\n发明内容\n[0012] 本申请的发明目的是要提供一种基于实例的智能化句对记录方法,利用该智能化句对,计算机能执行高级的智能翻译和处理。所述智能化句对兼翻译实例和翻译模式于一身,因此它能保留具体翻译句对的独特性又具有翻译模式的普遍生。\n[0013] 本发明的发明人基于多年对人类大脑的翻译思维以及外语学习和记忆的研究,提出了一整套模拟人脑记忆和存储翻译知识的体系,即博典(Bodian)智能化知识库体系。并发明多种方法和系统来实现所述智能化知识库体系和应用所述智能化知识库体系。利用这些突破了计算机智能翻译的跨世纪技术难关的方法和系统,可将智能化知识库的知识积累面向所有用户,用户可以随时更新,知识库不固化于软件中。这彻底摆脱了传统翻译软件由语言专家制定翻译规则或句型并由软件专业技术人员写入或更新的束缚,并将大大加快智能化知识库的开发和完善速度。因此,为早日实现高质量的全自动机器翻译提供了可行的技术解决方案。\n[0014] 具体地,本发明的主要内容是双语句对模式化记录方法以及基于所述双语模式化句对的翻译方法和翻译系统。\n[0015] 按照本发明的第一方面的一种双语句对模式化记录方法,用于将一个原文句子与一个相应的译文句子以对应的方式记录在记录介质上,其中:将原文句子记录在记录介质的第一部分,将译文句子记录在记录介质的第二部分;至少在所述第一部分和第二部分的任何一个中,记录常规单元和模式化单元;在所述模式化单元中,用预定格式记录自身语种单元内容以及对应语种的对应单元信息。\n[0016] 按照上述的一种双语句对模式化记录方法,其中,在所述第二部分的译文句子中,记录常规单元和模式化单元;在所述模式化单元中,记录译文单元内容以及相应的原文单元信息;所述原文单元信息包括:原文单元内容以及原文单元的词生、属性或句中序号等信息,或者是上述多种信息的任意组合。进一步,在所述第一部分的原文句子中,记录常规单元和模式化单元;在所述模式化单元中,用预定格式记录原文单元内容及其词性和/或属性信息。在所述第一部分的原文句子中,记录常规单元和模式化单元;在所述模式化单元中,用预定格式记录原文单元内容以及对应的译文单元信息;所述译文单元信息包括:译文单元内容以及译文单元的词性、属性或句中序号等信息,或者是上述多种信息的任意组合。\n[0017] 按照上述的一种双语句对模式化记录方法,其中,利用翻译软件的交互翻译(IT)模块或辅助翻译模块(CAT)来采集模式化单元所需要的信息并形成需要的模式化单元,再将它们送到模式化句对中。\n[0018] 按照本申请第二方面的一种基于双语模式化句对的翻译方法,所述双语模式化句对是采用本申请第一方面的双语句对模式化记录方法记录的,所述翻译方法包括:将输入的原文句子与所述双语模式化句对中的原文部分匹配;如果满足预定的匹配标准,则取出该双语模式化句对中的译文部分;对所述译文部分中的模式化单元进行单元翻译处理;将完成单元翻译处理的所述译文的结果作为当前输入句的译文。\n[0019] 按照上述的一种基于双语模式化句对的翻译方法,其中,所述匹配的匹配模式包括:常规匹配模式、模式匹配模式、和高级智能匹配模式。\n[0020] 按照上述的一种基于双语模式化句对的翻译方法,其中,所述单元翻译处理包括原文单元的词典查找、译文单元的替换操作、和/或相关原文信息的替换操作、去模式化操作。其中,单元翻译处理可采用如下方式:一对一、一对多、多对一、多对多、一对零、零对一,或它们的任意组合。\n[0021] 按照本申请第三方面的一种基于双语模式化句对的翻译系统,所述双语模式化句对是采用本申请第一方面的双语句对模式化记录方法记录的,其中,所述翻译系统包括:匹配模块、单元翻译处理模块、知识库;所述知识库主要包括句库和词库;所述匹配模块接收输入的原文句子,以及来自句库的所述双语模式化句对,并将输入的原文句子与所述双语模式化句对中的原文部分进行匹配;如果满足预定的匹配标准,则将原文句子和该双语模式化句对中的译文部分送到单元翻译处理模块;单元翻译处理模块对所述译文部分中的模式化单元进行单元翻译处理;并将完成单元翻译处理的所述译文的结果作为当前输入句的译文输出。\n[0022] 按照上述的一种基于双语模式化句对的翻译系统,其中,所述翻译系统进一步包括匹配模式控制模块,它控制匹配模块按照预定的匹配模式进行匹配,所述预定的匹配模式包括:常规匹配模式、模式匹配模式、和高级智能匹配模式;所述匹配模式控制模块可并入到匹配模块中,并使所述匹配模块成为更具体化的匹配模块,即按照规定的匹配模式进行匹配。\n[0023] 按照上述的一种基于双语模式化句对的翻译系统,其中,所述翻译系统进一步包括预处理模块,用于对输入的原文按照知识库规定格式和匹配要求进行预处理,并将预处理后的原文送到匹配模块。所述句库中记录有多个所述双语模式化句对以及用于搜索和匹配的附加信息;所述翻译系统进一步包括句库搜索模块,用于根据输入的原文或预处理后的原文信息对知识库进行搜索,从句库中找出需要的双语模式化句对;所述的句库搜索模块可并入到所述的匹配模块,以便搜索与匹配有机地结合。\n[0024] 按照上述的一种基于双语模式化句对的翻译系统,其中,所述单元翻译模块执行:\n原文单元的词典查找、译文单元的替换操作、和/或相关原文信息的替换操作、去模式化操作。所述单元翻译模块可采用如下方式:一对一、一对多、多对一、多对多、一对零、零对一,或它们的任意组合。\n附图说明\n[0025] 图1A是传统TM计算机翻译技术解决方案的方框图。\n[0026] 图1B是用传统句对记录方法记录的句对示意图。\n[0027] 图2A-2C,和图3A-3C用本发明的双语句对模式化记录方法记录的双语模式化句对的例子,用于说明本发明的双语句对模式化记录方法记录的各种实施例。\n[0028] 图4显示了双语模式化句对的附加信息的例子。\n[0029] 图5显示了用本发明的双语句对模式化记录方法记录的一个模式化句对列表。\n[0030] 图6是按照本发明的基于双语模式化句对的翻译方法的流程图。\n[0031] 图7是图6所示翻译方法中的所述单元翻译处理的流程图。\n[0032] 图8A-8D分别示意生地显示了单元翻译处理的几种方式。\n[0033] 图9显示了按照本发明的基于双语模式化句对的翻译系统的第一个实施例。\n[0034] 图10显示了按照本发明的基于双语模式化句对的翻译系统的第二个实施例。\n[0035] 图11显示了按照本发明的基于双语模式化句对的翻译系统的第三个实施例。\n[0036] 图12显示了按照本发明的基于双语模式化句对的翻译系统的第四个实施例。\n[0037] 下面将结合附图对本发明的各个方面及具体实施方式和实施例进行详细说明。\n[0038] 实施方式\n[0039] [双语句对模式化记录方法]\n[0040] 本发明的第一方面是提供一种双语句对模式化记录方法,用于将双语句对模式化地记录到记录介质上。通常,双语句对包括:用第一语种表示的原文句子(简称为第一语种原文句子),以及用相应的、用第二语种表示的译文句子(简称为第二语种译文句子)。第一语种原文句子有时也被更简单地称为原文,第二语种译文句子有时也被更简单地称为译文,这是因为第二语种译文句子通常是第一语种原文句子的翻译结果。\n[0041] 在本发明中的所述双语句对内容,尤其指译文,可以是来自人类手工的翻译结果,也可以是人类手工借助于计算机翻译工具的翻译结果,还可以是计算机自动翻译工具的翻译结果。对于原文或原文句子,可以是一个简单句、复杂句、或者是词组、短语、短句等等。总之,本申请中所说的原文句子对其本身的长度或结构没有限制。\n[0042] 所述记录介质可以是计算机可读的存储介质,比如:硬盘驱动器、光盘、USB存储器等等。也可以是传统的记录介质,比如:纸张、磁带等。记录或存储的形式可以是文本格式、数据库格式或其它任何格式。\n[0043] 在本申请中,″记录″一词的合义还应理解为″记录并存储″的意思。在某种意义上,″记录″一词也等同于″存储″。\n[0044] 本发明的双语句对模式化记录方法可用于计算机翻译系统中,尤其可用于计算机翻译系统中句库的记录和存储。当然,不排除在其它领域中的应用,比如互联网上的语料库收集。\n[0045] 图2-3用于说明本发明的双语句对模式化记录方法记录的各种实施例。\n[0046] 按照本发明的双语句对模式化记录方法,将原文即第一语种记录在第一部分,将译文即第二语种记录在第二部分。在以文件形式存储的情况下,第一部分和第二部分可以同处于一个文件中,比如第一部分和第二部分处于同一行中,之间用一个特定的分隔符分开,如图2A所示;或者第一部分和第二部分分别处于相邻的二行中,比如第一部分为奇数行,第二部分为偶数行,如图2B所示。另外,在以文件形式存储的情况下,如图2C所示,第一部分和第二部分中的每一个都可以是存在于一个单独的文件中,同一句对的第一部分与第二部分之间具有对应关系,比如它们处于相同的行中。\n[0047] 在以数据库形式存储的情况下,第一部分和第二部分可以同处于一个表单中。比如第一部分和第二部分处于同一行的不同列单元中,如图3A所示。或者第一部分和第二部分分别处于相邻的二行中,比如第一部分为奇数行,第二部分为偶数行,如图3B所示。\n[0048] 在以数据库形式存储的情况下,如图3C所示,第一部分和第二部分中的每一个都可以是存在于一个单独的表单中,同一句对的第一部分与第二部分之间具有对应关系,比如它们处于相同的行中。\n[0049] 按照本发明的双语句对模式化记录方法,至少在所述第一部分和第二部分的任何一个中,记录常规单元和模式化单元。在所述模式化单元中,用预定格式记录自身语种单元内容以及相对应的语种单元信息。\n[0050] 具体地,在第二部分记录的所述译文中,除了记录常规单元之外,还用记录模式化单元。所述常规单元意指不可变的部分,即常规的译文,比如,图2-3中的″为″、″买了″、″一块″(也可认为″买了一块″是一个常规单元或常规单元块)。所述模式化单元意指可被替换的部分,即该部分译文可被其它内容替换,比如,图2-3中的:{\he|0|他/}、{\his|5|他的/}、{\wife|6|妻子/}、{\gold watch|3|金表/}。\n[0051] 具有所述模式化单元的句对被称为模式化句对。所述常规单元和模式化单元的数量以及它们之间的位置关系可以是任意的,它们是由句子的结构和翻译的需要而定的。一个模式化句对通常具有一个或多个常规单元,一个或多个模式化单元。常规单元与模式化单元位置关系可以是互相相间,也可以是几个常规单元或模式化单元相连再互相相间。\n[0052] 一个模式化句对中也可以全部是常规单元,此时的句对就是通常的简单句对(参见图1),其中没有任何模式化信息,我们可以称之为#0类模式化句对。\n[0053] 一个模式化句对中也可以全部是模式化单元。例如:\n[0054] {\lazy|adj/}{\boy|n|/}{\!|f/}^{\lazy|0|懒惰的/}{\boy|1|男孩/}{\!|2|!/}\n[0055] 所述模式化单元用预定的格式记录。采用预定格式记录(或模式化)的目的是使该模式化单元中的译文单元能被替换。模式化单元可根据需要包含对应的原文单元、词性、属性和句中序号等信息,以便进行准确且符合需要的替换。模式化单元的例子如下:″他|he|pronoun|0″、{\gold watch|3|金表|noun|物品/}、{\wife|6|妻子/}。其中,″他″、″金表″、″妻子″为译文单元的内容;″he″、″gold watch″、″wife″为原文单元的内容;″pronoun″、″noun″为原文单元的词性,也可以是译文单元的词性;″0″、″3″、″6″为原文单元在原文句子中的词序号,为了计算机编程一致,序号以″0″开始。\n[0056] 模式化单元中的各种信息之间可用特定的分隔符分开,比如字符″|″、″^″,或空格、或制表符等等。其目的是为了在利用模式化句对进行翻译时,能更好地进行识别和处理。每个模式化单元可以用特定符号对标记,比如:″{″和″}″、″{\″和″/}″等等,以便模式化单元能很容易地被识别。\n[0057] 在图2A的例子中,第二部分译文中具有模式化单元:{\he|0|他/}、{\his|5|他的/}、{\wife|6|妻子/}、{\gold watch|3|金表/}等。虽然在第一部分没有明显标出模式化单元,但在第二部分译文中的模式化单元所指第一部分的那些单词或词组被暗示为可替换的。它们是第0位的he、第5位的his、第6位的wife、第3位的gold-watch。\n[0058] 进一步,在第一部分的记录的所述原文中,除了记录常规单元之外,也还可记录模式化单元。所述常规单元意指不可变的部分,即常规的原文。所述模式化单元意指可被替换的部分,即该部分原文可被其它内容替换。同理,所述常规单元和模式化单元的数量可以是任意的,它们是由句子的结构和翻译的需要而定的。\n[0059] 所述模式化单元用预定的格式记录。模式化的目的是使该模式化单元中的原文单元能被替换。模式化单元可根据需要包含该单词或词组的词性、属性等信息,以便进行准确且符合需要的替换。优选地,在第一部分原文中的模式化单元中附加信息最好是与在第二部分译文中的模式化单元中的附加信息互补。另外,第一部分原文中的模式化单元最好与第二部分译文中的相应的模式化单元同时产生。\n[0060] 在图2B和2C中显示了在第一部分即原文中对模式化单元即可替换的单词或词组进行标注的例子。如图所示,标注方式如下:{\he|pron/}、{\gold_watch|noun/}、{\his|prond|/}、{\wife|noun|/}。当然还可采用其它的标注方式,其目的只要是利于被识别和被替换。\n[0061] 另外,在所述第一部分的原文句子中,在所述模式化单元中,还可用预定格式记录原文单元内容以及对应的译文单元信息。所述译文单元信息包括:译文单元内容以及译文单元的词性、属性或句中序号等信息,或者是上述多种信息的任意组合。\n[0062] 图5显示了用本发明的双语句对模式化记录方法记录的一个模式化句对列表。\n[0063] 为了上述模式化句对能被更好地利用,在其中还可以记录一些附加信息,比如:该句的单元总数、修改标记、质量等级、用户名、更新日期、语种编号等等,如图4所示。所述附加信息可放在模式化句对的开头、结尾、或其它位置,只要它与所述模式化句对有对应关系。\n[0064] 从上面描述的内容可看出,用本发明双语句对模式化记录方法记录的模式化句对既是一个翻译实例又可是一个翻译模型。因此它能保留具体翻译句对的独特性又具有翻译模式的普遍性。利用该模式化句对,既可对输入的原文句子进行常规的匹配翻译,以保证具体句子的特殊性翻译要求,又可对输入的原文句子进行模式化匹配翻译,以及更高级的智能化翻译,如本申请的第二部分所描述的。另外,本发明的双语句对模式化记录方法不需要对所翻译的双语句对进行抽象化操作(它需要许多语法思考和归纳以及大量规则),而只需要增加一些已有的信息,因此该方法容易由计算机实现。比如,在用翻译软件进行翻译过程中,利用交互翻译(IT)模块或辅助翻译模块(CAT)来采集模式化单元所需要的信息并形成需要的模式化单元,再将它们送到模式化句对中。\n[0065] 除简单易行外,所述的模式化单元也比较直观而且易于被普通翻译者(翻译软件使用者)理解,因此普通翻译者(翻译软件使用者)也容易习惯和使用本发明的双语句对模式化记录方法。\n[0066] [基于双语模式化句对的翻译方法]\n[0067] 下面将参考图6对本申请第二方面的基于双语模式化句对的翻译方法进行详细说明。\n[0068] 按照本发明的一种基于双语模式化句对的翻译方法,其中,所述双语模式化句对是采用上述双语句对模式化记录方法记录的。\n[0069] 首先,将输入的原文句子与双语模式化句对中的原文部分匹配。为了方便描述,所述的输入的原文句子被称为″输入原文″,所述的双语模式化句对中的原文部分被称为″参考原文″。所述参考原文可以是去模式化(下面将详细说明)后的参考原文,即去掉了模式化单元中的附加信息,以便于比较操作。另外,具体的匹配实施方法可以采用句子对齐比较方法,也可采用单元阵列比对方法等等。\n[0070] 匹配方法可采用常规的单元及位置比对方法,即输入原文中某一单元的位置和内容与参考原文中相同位置处的单元的内容相同时,则该单元匹配,否则不匹配。如果,输入原文中的所有单元与参考原文中的所有单元都匹配时,则输入原文与参考原文完全匹配。\n如果某些单元匹配而某些单元不匹配,则可通过下列公式计算出满足参考原文的匹配率M。\n[0071] M=(Nhit/SUMref)*% 公式1\n[0072] 其中,Nhit为参考原文中匹配成功的单元数;SUMref为参考原文的单元总数。\n[0073] 图8A中显示了几个匹配例子,其中,用″[″和″]″标注出不匹配的单元。在第一个例子中,\n[0074] 输入原文为:They use the advanced Bodiansoft ITM to translate articles.[0075] 参考原文为:We use the advanced Bodiansoft CATM to translate books.[0076] 由于在第0位″They″和″We″、第5位的″ITM″和″CATM″以及第8位的″articles″和″books″不匹配,不匹配单元数为3。而参考原文中的总单元数SUMref=10(包括标点符号),则,匹配单元数Nhit=10-3=7,因此,满足参考原文的匹配率M=(7/10)*%,即70%。\n[0077] 由于所述参考原文来源于模式化句对,可以对输入原文进行模式匹配并按模式匹配方式来计算满足参考原文的模式匹配率m。计算公式如下:\n[0078] m=(Bhit/SUMref) 公式2\n[0079] 其中,Bhit为参考原文中匹配成功的常规单元数;SUMref为参考原文中常规单元的总数。\n[0080] 对于上述的图8A中的第一例子,如果第0位、第5位和第8位都是模式化单元,即参考原文中的所有常规单元都匹配,则满足参考原文的模式匹配率m为100%。\n[0081] 由此可看出,利用所述的双语模式化句对可以大大提高输入原文的模式匹配率,通过后文所述的单元翻译处理还能得到正确的翻译结果。\n[0082] 上面讨论了两种匹配方式和相应的匹配率的计算方法,但本发明还可采用其它匹配方式和匹配率计算方法,这取决于具体翻译要求。匹配率的算法要与匹配方式结合,或者取决于匹配方式。更加先进的匹配方式或算法,比如:可进一步考虑输入原文的单元总数,将输入原文中的单词和词组先进行规划化,单元匹配时可扩充至各种变型的匹配,常规单元和模式化单元以不同权重进行匹配,等等。另外,匹配方式和算法还可结合后面所讨论的单元翻译处理中的一对多、多对一、多对多等处理方法。\n[0083] 按照本发明的一种基于双语模式化句对的翻译方法,在上述匹配步骤之后,如果满足预定的匹配标准,则取出该双语模式化句对中的译文部分。\n[0084] 所述匹配标准可以是某种匹配模式下的具体匹配要求。比如,在常规匹配模式下,例如,匹配率大于或等于70%即符合匹配标准。在模式匹配模式下,常规单元完全匹配为匹配标准。根据具体翻译要求,还可以设计出各种匹配模式并制订各种匹配标准。\n[0085] 按照本发明的一种基于双语模式化句对的翻译方法,在上述译文部分取出步骤之后,对所述译文部分中的模式化单元进行单元翻译处理。\n[0086] 如图7所示,所述单元翻译处理包括:原文单元的词典查找、译文单元的替换操作。\n[0087] 所述原文单元的词典查找可以是常规的词典查找步骤,即利用原文单元中的原文内容(比如单词、词组或短语等),在词典或词库中查找相应的释义和说明等内容,其中可包括词性、属性、特性等附加信息。\n[0088] 所述的译文单元的替换操作即用上述查找到的释义替代模式化单元中的译文内容。如果所述释义有多个时,可选择第一个释义来进行替换操作。\n[0089] 根据需要,所述的单元翻译处理还可包括相关原文信息替换操作和去模式化操作等。所述相关原文信息替换操作是指用上述的在词典或词库中查找到的附加信息来替代模式化单元中的相应信息。所述去模式化操作是指将模式化单元中的附加信息除掉,以便显示清晰的翻译结果。\n[0090] 对所述译文部分中的所有模式化单元进行单元翻译处理之后,所得结果即为当前输入句的译文。最后还可将所述译文输出以便进一步的处理和显示。\n[0091] 下面针对图8A中第一个例子,具体说明本发明的基于双语模式化句对的翻译方法。\n[0092] 假设在该例子中,模式化双语句对如下:\n[0093] 参 考 原 文:{\We|pron/}use the advanced Bodiansoft{\CATM|n|/}to translate{\books|n/}.\n[0094] 参考译文:{\We|0|我们/}利用先进的Bodiansoft{\CATM|5|CATM/}来翻译{\books|8|书/}。\n[0095] 对上述原文进行去模式化处理,得到简化的参考原文″We use the advanced Bodiansoft CATM totranslate books.″\n[0096] 将 输 入 原 文″ They use the advanced Bodiansoft ITM to tra nslate articles.″与上述参考原文进行匹配。匹配结果为:在第0位的″They″和″We″、第5位的″ITM″和″CATM″以及第8位的″articles″和″books″不匹配,不匹配单元数为3。而参考原文中的总单元数为SUMref=10(包括标点符号),则,匹配单元数为Nhit=10-3=7,因此,满足参考原文的匹配率M=(7/10)*%,即70%。而且,由于第0位、第5位和第8位都是模式化单元,即参考原文中的所有常规单元都匹配,则满足参考原文的模式匹配率m为100%\n[0097] 假设匹配标准为常规匹配率M=>70%和模式匹配率m=100%的综合匹配算法标准,则上述输入的原文句子满足匹配标准,因此,取出该句对的译文部分。\n[0098] 接下来对所述译文部分进行单元翻译处理。比如先对第0位的{\We|0|我们/}进行单元翻译处理。按照单元翻译处理步骤,先用输入原文中第0位的单词″They″来查* *\n找词典或词库,比如得到字符串″他们|pron| | ″。其中,″他们″为″They″的释*\n义,″pron″为词性,代表其它特性或其它附加信息。在查找步骤之后,再进行译文替换操作,此处用查找到的释义″他们″替代模式化单元中的译文″我们″。如果需要还可进行相应原文替换操作,即将输入原文中的单词″They″替代模式化单元中的原文″We″。\n由此,得到新的模式化单元{\They|0|他们/}。同样,根据需要,还可对上述新的模式化单元进行去模式化操作,即得到该模式化单元的单元翻译结果″他们″。同理,可对其它模式化单元进行单元翻译处理。最终得到该输入原文的翻译结果即译文″他们利用先进的Bodiansoft ITM来翻译文章″。\n[0099] 从这个具体例子可看出,按照上述本申请第一方面的双语句对模式化记录方法,类似于人脑对外语句法的学习和翻译知识的记忆方法。即对于那些固定的属于语法现象的部分(比如:动词和介词的固定搭配、惯用法、特殊用法、以及特殊句子等等)采用固定的办法记忆,即将作为不可变部分记忆。而对于那些具有普遍性的部分(比如:名词性主语、名词性宾语、介词宾语、形容词、数词、代词、简单动词、特有名词、专业术语、以及没有特定语法现象的词组等等)采用模式化记忆办法,即将它们作为可变部分或可替换部分来记忆。例如上述例子中的模式化句对″...{\We|0|我们/}利用先进的Bodiansoft{\CATM|5|CATM/}来翻译{\books|8|书/}″。\n[0100] 因此,本发明的模式化句对既是一个翻译实例又是一个翻译模型。在利用该模式化句对进行翻译可达到事半功倍、举一反三的效果。实际上,利用本发明的一个模式化句对,可以准确地翻译成千上万个类似句子。比如在上述例子中,用逻辑推理的方法,只要输入原文句子中第0位是代词(pron)就可替代参考句对中的{\We|0|我们/);只要输入原文句子中第5位和第8位名词性单元,则它们就可替代参考句对中的{\CATM|5|CATM/}和{\books|8|书/}。而且,最终的替换结果是准确无误的翻译结果。\n[0101] 上面对简单的单元翻译处理进行了详细说明,即类似人脑一对一的逻辑推理思维方式。进一步,为了更多地利用本申请中所述的模式化句对,可以对上述的单元翻译处理方式进行扩展,比如:一对多、多对一、多对多等高级或复杂处理方式。图8B-8D分别示意性地显示了上述各种方式,其中,需要注意的是句对中上半部分为参考原文,而下半部分为输入原文句子。\n[0102] 图8C示意性地显示了一对多的单元翻译处理方式。其中,参考原文中第3位的″CAT″在输入原文中未找到,即没有相应的匹配单元。而在输入原文句子中第3位的″advanced″和第4位的″BodiansoftITM″(在词库中,假定Bodiansoft ITM为一词组)都是可替换性的词类。因此,可采用推测型的逻辑思维,将输入原文句子中第3位的″advanced″和第4位的″Bodiansoft ITM″认定为与参考原文中第3位的″CAT″对应。具体的单元翻译处理操作可以采用各种替换方式进行,只要最终将″CAT″的译文(比如″计算机辅助翻译软件″)替换成″advanced″和″Bodiansoft ITM″的译文(比如″先进的BodiansoftITM″)即可。同理,参考原文中第6位的″articles″在输入原文中未找到,即没有相应的匹配单元。而在输入原文句子中第6位的″patent″和第\n7位的″documents″(此处所说的第6位和第7位是在前面将第3位的″advanced″和第4位的″Bodiansoft ITM″合并处理后的词序结果)都是可替换性的词类。因此,可采用推测型的逻辑思维,将输入原文句子中第6位的″patent″和第7位的″documents″认定为与参考原文中第6位的″articles″对应。具体的单元翻译处理操作可以采用各种替换方式进行,只要最终将″article″的译文(比如″文章″)替换成″patent″和″document″的译文(比如″专利文献″)即可。\n[0103] 图8C示意性地显示了多对一的单元翻译处理方式。其处理思路与上面讨论的一对多单元翻译处理方式相同,只要将参考原文与输入原文对换思考即可。因此,这里就不再冗述。\n[0104] 图8D示意性地显示了多对多的单元翻译处理方式。其处理思路也与上述一对多和多对一的单元翻译处理方式思路基本一致。只是其中可能包括多个一对一、一对多或多对一的单元翻译处理操作。即综合型的逻辑推理思维。\n[0105] 另外,对于一对零以及零对一情况,其单元翻译处理方式可采用″消除″和″插入″的方法进行处理。\n[0106] [基于双语模式化句对的翻译系统]\n[0107] 下面将参考图9-12来描述本发明的基于双语模式化句对的翻译系统。所述双语模式化句对是采用本申请第一方面的双语句对模式化记录方法记录的。\n[0108] 如图9所示,按照本发明的基于双语模式化句对的翻译系统,包括:匹配模块、单元翻译处理模块、知识库。所述知识库主要包括句库和词库。所述知识库还可包括用于句库搜索的索引表等,以便快速地查找到所需的句对。\n[0109] 所述匹配模块接收输入的原文句子,以及来自句库的所述双语模式化句对,并将输入的原文句子与所述双语模式化句对中的原文部分进行匹配。如果匹配满足预定的匹配标准,则将原文句子和该双语模式化句对中的译文部分送到单元翻译处理模块。关于匹配和匹配标准的详细说明可参见本申请第二方面的基于双语模式化句对的翻译方法的详细描述部分中的相关内容。\n[0110] 单元翻译处理模块对所述译文部分中的模式化单元进行单元翻译处理;并将完成所有单元翻译处理的所述译文的结果作为当前输入句的译文输出。\n[0111] 按照本发明的一个优选实施例,本发明的基于双语模式化句对的翻译系统,其中,进一步包括匹配模式控制模块(如图10所示),用于控制匹配模块按照预定的匹配模式进行匹配,所述预定的匹配模式包括:常规匹配模式、模式匹配模式。所述匹配模式和算法还可结合本申请第二方面中所讨论的各种更高级的单元翻译处理方式,以形成更为先进的高级智能匹配模式。\n[0112] 图10中所示的匹配模式控制模块也可并入到匹配模块中,并使所述匹配模块成为更具体化的匹配模块,即按照规定的匹配模式进行匹配。\n[0113] 按照本发明的另一个优选实施例,本发明的基于双语模式化句对的翻译系统,其中,进一步包括预处理模块(如图10所示),用于对输入的原文按照知识库规定格式和匹配要求进行预处理,并将预处理后的原文送到匹配模块。\n[0114] 进一步,本发明的基于双语模式化句对的翻译系统,其中,所述句库中记录有多个所述双语模式化句对(如图5所示)以及用于搜索和匹配的附加信息(如图4所示)。\n[0115] 如图10所示,按照本发明的所述优选实施例,本发明的基于双语模式化句对的翻译系统可进一步包括句库搜索模块,用于根据输入的原文或预处理后的原文信息在知识库进行搜索,从句库中找出需要的双语模式化句对。\n[0116] 所述的句库搜索模块可并入到所述的匹配模块,以便搜索与匹配有机地结合。形成如图11所示的实施例,其中搜索与匹配模块执行句库搜索与句子匹配操作。具体的操作流程可以是先搜索,找到符合要求的模式化句对后再进行匹配操作;或者一边进行搜索一边执行匹配操作,直到找到符合要求的最好的模式化句对。\n[0117] 图11中所示的匹配模式控制模块也可并入到搜索与匹配模块中,从而形成图12所示的实施例。\n[0118] 上面所述的单元翻译模块执行:原文单元的词典查找、译文单元的替换操作、相关原文信息的替换操作、和/或去模式化操作。更详细的说明可参见本申请第二方面基于双语模式化句对的翻译方法的详细描述部分中的相关内容。\n[0119] 所述单元翻译模块可采用如下方式:一对一、一对多、多对一、多对多、一对零、零对一等单元翻译处理方式。同样,具体说明可参见本申请第二部分基于双语模式化句对的翻译方法的详细描述部分中的相关内容。\n[0120] 上面对本申请的各个方面及其各种实施方式和实施例进行了详细描述。从上面的那些描述中,可以看出,本申请的发明采用了人工智能技术即类似人脑的思维模式和方式及方法来进行翻译知识库的记录和翻译处理。尤其是本申请的第一方面的双语句对模式化记录方法是一个简单、高效且先进的句对记录和存储方法,它为智能知识库(句库)的设计和建设提供了一种可行的解决方案。利用这种智能化的知识库可以进行完成更多更高级的人工智能翻译处理,正如本申请第二和第三方面所描述的。通过具体实践和开发,也证明利用本申请中的发明的智能化知识库以及智能化翻译方法和系统是切实可行的,而且具有非常广阔的实用性。\n[0121] 另外,虽然上面对本申请的各个方面及实施方式和实施例进行了详细描述,但本申请的发明并不限制于此。本专业的技术人员可以做出各种变化、改形或修改。只要这些变化、改型或修改不脱离本发明的精神和原理,它们就应被包括在本发明的范围之内。
法律信息
- 2017-10-24
文件的公告送达
文件的公告送达失败
收件人: 张龙哺
文件名称: 缴费通知书
- 2015-08-05
- 2013-01-02
文件的公告送达
文件的公告送达失败
收件人: 张龙哺
文件名称: 第一次审查意见通知书
- 2012-03-14
实质审查的生效
IPC(主分类): G06F 17/28
专利申请号: 200910162384.6
申请日: 2009.08.14
- 2011-03-30
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |