著录项信息
专利名称 | 汉语外语句型转换双向机器翻译方法 |
申请号 | CN200610030284.4 | 申请日期 | 2006-08-22 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2008-02-27 | 公开/公告号 | CN101131689 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/28 | IPC分类号 | G;0;6;F;1;7;/;2;8;;;G;0;6;F;1;7;/;2;7查看分类表>
|
申请人 | 苗玉水 | 申请人地址 | 江苏省苏州市太仓市科教新城健雄路20号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 江苏华音信息科技有限公司 | 当前权利人 | 江苏华音信息科技有限公司 |
发明人 | 苗玉水 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
本发明是一种汉语与外语的双向机器翻译的方法,属于机器翻译技术领域。一方面翻译时由于汉语信息的表达采用仅用26个拉丁字母为码元的汉语语音码技术,使得汉语信息的表达与ASCII码100%兼容,另一方面由于采用源语言和目标语言基本相一致的词法和句法系统基础上的句型转换的方法,使得本机器翻译方法比传统的机器翻译方法翻译效果更准确更好。它极大方便对外汉语教学和外国人学习汉语并能广泛应用于计算机及嵌入式机器翻译系统中。
1.一种汉语与外语的双向机器翻译的方法,采用汉语语音码,它是在建立源语言与目标语言基本相一致的词法句法基础上,通过汉语与外语双向句型转换,实现包括应用在各种计算机和嵌入式系统在内的汉语与外语的双向机器翻译的方法,其特征主要包括以下步骤:
步骤A:
(一)所采用的语音码的每一音节声、韵、调的编码方法采用类似以下的方法:
注:括号内的符号均为汉语拼音符号,不带括号的字母为所采用的汉语每一音节声、韵、调的编码
1、声码的编码:
b:(b) p:(p) m:(m) f:(f) d:(d) t:(t)
n:(n) l:(l) g:(g) k:(k) h:(h)
j:(zh)(j) q:(ch),(q) x:(sh),(x) r:(r)
z:(z) c:(c) s:(s) y:(y) w:(w)
2、介码的编码:
i:(i) u:(u) y:(ü)
3、韵码的编码:
a:(a) o:(o) e:(e) i:(i) u:(u) y:(ü)
k:(ao) c:(ai) s:(an) x:(ou) w:(ei) n:(en)
z:(ua) l:(uo) b:(ang) d:(ong) p:(eng)
q:(ing) g:(ng) (无声母韵母) er:(er)
r:(i)[只与(zh)、(ch)、(sh)相拼]
4、调码的编码:
a:(-)阴平e:(/)阳平v:(∨)上声u:(\)去声
o:(不标)轻声
(二)利用上述编码的汉语信息全息表示采用如下的方法:
以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开;
步骤B:
首先运用人工的方法建立同一种语言句子的词性串与句型的对应关系,然后再在建立汉语与需要翻译的外语基本相一致的词法系统和句法系统基础上,建立所需要翻译的两种语言间的句型对照关系,这里的词法就是关于词类的定义和划分以及研究单词、词形的变化及其用法,句法就是是关于句子成分的定义和划分以及研究句子种类、句子结构及其内部形式,句型就是句子内部各个单词、词组、短语、从句的词性或相当词性及其在句子中所担当成分的排列顺序及其形式;
翻译时机器先扫描源语言的句子,通过查源语言标注词性的词典得到源语言的句子的词性串,通过查源语言词性串与源语言句型的对应关系表,将源语言的句子的词性串转换成对应的源语言句型,再通过查源语言句型与目标语言句型对照表,将源语言句型转换成匹配的目标语言句型,最后通过查源语言与目标语言对照词典的方法,将源语言中的单词或词组翻译成目标语言的单词或词组,并按目标语言句型的顺序以词为单位排列输出,便得到我们所需要的目标语言语句;
对源语言中的复句先进行语法分析将复句中的所有从句提取出来,通过层层提取直到最后将从句提成单句为止,再按上述翻译单句的方式进行机器翻译,复句部分则通过查源语言和目标语言句型对照表完成复句句型转换,并完成除从句的复句其它成分的翻译,最后将翻译好的从句放入转换后相应复句句型中的相应位置,如此循环往复一直到得到我们所需要的整个目标语言句子为止。
2.如权利要求书1所述的翻译方法,其特征在于:汉语的词法部分,主要建立了与英语词类具有基本一致对应关系的汉语的十类词类比如:名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词,还建立了与英语具有基本一致对应关系的汉语谓语动词的时体变化、汉语非谓语动词形态、汉语动词的语态和虚拟语气的形态。
3.如权利要求书1所述的翻译方法,其特征在于:汉语的句法部分,主要建立了与英语具有基本一致对应关系的汉语的八类句子成分比如:主语、谓语、宾语、表语、同位语、定语、状语、补语,以及这八类句子成分的定义和在句中能够充当八类句子成分的词类。
4.如权利要求书1所述的翻译方法,其特征在于:根据汉语句子类型按其结构和表明的语气以及用途,将汉语句子分成与英语具有基本一致对应关系的以下几类:汉语句子的类型按从结构上来分和从语气及用途上来分,从结构上分又将句子类型分为单句和复句两类,其中单句进一步分成主谓句和非主谓句,非主谓句又包括无主句和独词句;复句又细分为并列复句、主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句;按从语气及用途上来分又将句子细分成四类:陈述句、疑问句、祈使句和感叹句。
5.如权利要求书1所述的翻译方法,其特征在于:词法、句法、句型三者之间有着及其密切的关系,词法和句法就像描述句子句型的两根坐标轴,句子的句型就是相对由这两个坐标轴组成的坐标系的句子的轨迹,对具体的某一个句子来说,一旦用于该句子的词法和句法确定了,那么该句子的句型也就被唯一地确定下来了,也就是说句法和词法具有控制句型的作用,实践中通过设置适当的词法和句法系统使句型变得简单明了。
6.如权利要求书1所述的翻译方法,其特征在于:当源语言是用汉字或汉语拼音或汉语语音表达的汉语时,通过标准转换模块先将汉字或汉语拼音或汉语语音转换成汉语语音码再进行翻译,外语翻汉语时,翻译得到的用汉语语音码表示的目标语言或直接用于表达汉语信息,或必要时通过标准转换模块转换成汉字或汉语拼音或汉语语音或汉语特定人或汉语方言以及少数民族语言语音输出。
7.如权利要求书1所述的翻译方法,其特征在于:在汉语信息表示处于汉语语音码状态时其标点符号的用法同英文。
8.如权利要求书1所述的翻译方法,其特征在于:在上述转换中同种语言句子的词性串与句型之间、源语言句型与目标语言句型之间,源语言单词与目标语言单词之间、语音码和汉字之间,当出现不是一一对应的情况时,依据源语言或目标语言词法句法上下文联系及统计规律等手段先进行判别后再进行翻译或转换。
9.如权利要求书1所述的翻译方法,对于源语言中的文言文、诗词、成语、典故、俚语、缩略语等不便进行语法分析的内容,不进行词性查询和句型转换,在词性查询和句型转换前直接通过查找预先储存在机器中的一一对应的实例库匹配后输出。
10.如权利要求书1所述的翻译方法,其特征在于:当将该翻译方法用到的与汉语对应的各个要素如汉语标注词性的词典、汉语人工建立的词性串与汉语句型对照表以及汉语与目标外语句型转换对照表换成另外一种外语翻译时相应用到的上述各个要素时,上述翻译方法还能够扩展成一种外语翻译成另外一种外语的机器翻译方法。
一.所属技术领域\n一种汉语与外语的双向机器翻译的方法,该方法采用两项关键技术,一是采用与ASCII码100%兼容的用且仅用26个拉丁字母以词为单位的汉语语音码,二是建立汉语与所要翻译的外语基本相一致的词法系统句法系统,并在此基础上建立两种语言对应句型关系,翻译时通过将两种语言对应句型实行双向转换的方式来实现双向机器翻译,当将该翻译方法用到的与汉语对应的各个要素如汉语标注词性的词典、汉语人工建立的词性串与汉语句型对照表以及汉语与目标外语句型转换对照表换成另外一种外语翻译时相应用到的上述各个要素时,上述翻译方法还可以扩展成一种外语翻译成另外一种外语的方法。本发明属于机器翻译技术领域。\n二.背景技术\n在世界范围内电子机器翻译走过的历程大致可分为以下四个阶段:1、设想和初探阶段(1946-1954年),1946年,美国的韦弗(Weaver,Warren)和美国人布思(Booth,A.D.)首次提出将电脑用于机译系统。1947年,布思与布里顿提出用数字计算机查阅储存在电脑记忆里的词典。同年,他们编制出自动查阅字典程序。1950年,美国人E凯弗拉提出在机译中由人工进行译前编辑和译后审校的方案。1954年,美国乔治敦大学与IBM公司联合试验使用电脑的机译系统,这标志着机器翻译进入新的发展阶段。2、迅速发展阶段(1954-1966年),美国先后出现许多研究小组,英、法、德、意等政府积极为研究项目提供资助,苏联和东欧一些国家的研究工作也很活跃。3、低潮阶段(1966-1976年),互相竞争和封锁导致研究内容重复,耗费大量可以节省的时间和金钱,一些研究人员又遭到困难和挫折,在美国,最初人们认为机器可以完全代替人译的幻想普遍破灭,研究经费随之大幅度收缩,西欧也是如此,美国语言处理自动化咨询委员会于1966年发表了一份调查报告,她的出笼标志着机译研究低潮阶段的开始。4、复苏阶段(1976-现在),直到1976年3月,在弗吉尼亚的拉什陵举行了一次机译研讨会,美国的机译研究才开始复苏。\n中国是世界上第五个进行机器翻译实验的国家,从一开始就得到了国家的高度重视。早在1956年它便以“机器翻译”/“自然语言的数学理论”列入了当时的《科学发展纲要》,以后则列为“六五”、“七五”,以及“863”等重大科研项目,中国的机器翻译研究也有过10年的停滞,70年代中期,我国机器翻译研究从停滞走向了复苏。80年代中期90年代初期是我国的机器翻译研究自复苏以来第二个重要时期,在这一时期里,产生过两个在中国机译史上具有重要意义的实用系统,它们分别是军事科学院研制的“KY-1”英汉机译系统,它获得了国家科技进步二等奖,后来被开发为“译星”,成为中国第一个商品化系统,另一个是中科院计算所研制的“863-IMT”英汉机译系统,它获得了国家科技进步一等奖,它的技术带来了十分可观的效益。90年代初期至今,中国的机器翻译走入了快速发展的时期,出现了许多商品化系统,到目前为止已经有一些具有相当实用价值的计算机翻译系统被推向市场,比较典型的有:中软公司的翻译软件《译星》和北京交大铭泰出品的《东方快车》以及中科院华建公司推出的汉语外语翻译系统,可以说所有这些翻译系统都为人类实现用机器代替人来进行翻译的构想作出了极其重要和宝贵的贡献。\n在目前包括以上这些系统在内的所有汉语与外语单向或双向翻译系统中,主要还存在两个有待于进一步完善的地方:\n第一在汉语翻译成外语时,它们只能用汉字或汉语拼音所表示的汉语与外语进行单向或双向翻译。众所周知方块表意汉字的计算机机内码不在128个ASCII码的码符集内,而且用汉字表达的汉语信息在机器处理前和处理后都是不分词的,机器在每次翻译前都先要进行分词处理;而汉语拼音还存在几个不便于机器信息处理的弊病,比如:1.拼式太长,2.五个声调(含一个轻声)没有字母化且不在ASCII码的范围内,3.汉语单词音节的声、韵、调没有便于机器信息处理的从左到右的一维线性排列,而是上下排列,4.如果没有非字母化的汉语拼音隔音节符号的隔音节帮助,汉语拼音在以词为单位连写时,音节和音节之间往往容易发生混淆,产生混音现象。以上所有这些都不便于机器对汉语信息的处理,给机器翻译和汉语信息处理带来较大的困难。\n第二随着句子的复杂程度的增加,机器翻译句子的准确性和可懂度会有较大的下降,特别是在汉文翻成以英文为代表的外文时,这一问题尤为突出。\n造成以上两种情况的原因是多方面的,但最主要的是两条:一是没有能够发明并采用用且仅用26个拉丁字母,就能够对包含汉语的22个声母(含一个零声母),38个韵母,5个声调(含一个轻声)进行汉语全息编码的与ASCII码100%兼容的分词连写的汉语语音码;二由于汉语语法理论的不成熟不完备,因此没有能建立一套与所要翻译的目标语言比如英语相一致或基本相一致的汉语词法和句法系统,以及在此基础上建立起来的源语言句型比如汉语句型和目标语言句型比如英语句型转换对照关系,并通过实行对应句型的双向转换,实现源语言比如汉语和目标语言比如英语之间可角色互换的双向机器翻译。\n三.发明内容\n本发明的目的是提供一种采用用且仅用26个拉丁字母以词为单位分词连写的汉语语音码,并通过建立在汉语和所要互为转换的外语基本相一致的词法系统句法系统基础上的句型转换来实现汉语与外语的双向机器翻译的方法来解决以上存在的弊端。\n具体来说本发明方法所采用的汉语语音码,它用且仅用26个拉丁字母作为码元,以词为单位采用按词连写的方式对组成词的每一音节的声、韵、调先进行编码转换,再依照“声码+介码+韵码+调码兼隔音节符号”的顺序进行编码排列,由于26个拉丁字母属于128个ASCII码码符集范围内,因此一旦传统用于表示汉语信息的汉字或汉语拼音或汉语语音转换成该种汉语语音码后,世界上一切用于处理西码的所有软硬件资源都可以不加改造地用于处理汉语语音码所表达的汉语信息。而且无论在机器翻译前还是翻译后,汉语语音码在表达汉语信息时总是分词连写的,因此机器翻译时对汉语语音码所表达的汉语信息不需要像汉字所表达的汉语信息那样每次进行分词。\n汉语语音码分词的实现主要是通过以下两条途径:一是在输入机器时像英文一样已经是按词输入的,词与词之间有空格,因此输入机器后就不需要再分词,二是从没有分过词的汉字或汉语拼音转换过来的汉语语音码,这种情况下,一般采取用传统的先分词再转换的方法和转换后再分词两种方法,这两种方法都可以通过机器标准分词和转换模块自动进行,对少量机器分得不恰当的词,还可以实行人工干预,正确无误后交给机器进行机器翻译。\n一般采用汉语语音码表达汉语信息后,机器对原句只进行一次分词便可,不需要像汉字所表达的汉语信息那样在翻译前往往需要每次进行分词,而且由于语音码是分词连写的,因此当语音码作为目标语言输出翻译结果时,通过翻译得到的已经分过词的翻译的结果,就像目标语言是英文那样可以得到保存,以利于下次作为源语言时使用。\n在汉语的词法和句法系统的建立方面我们采取建立汉语与所要翻译的外语基本相一致的词法系统和句法系统。\n所谓词法就是关于词类的定义和划分以及研究单词、词形的变化及其用法的。比如:名词的定义、动词的时态和语态的变化、非谓语动词的形态等。\n所谓句法就是是关于句子成分的定义和划分以及研究句子种类、句子结构及其内部形式的。比如:主语的定义、句子的分类、句子成分的分类和划分等等。\n所谓句型就是句子内部各个单词、词组、短语、从句的词性或相当词性及其在句子中所担当成分的排列顺序及其形式。比如:\n(人称代词1作主语)+(时间名词1作时间状语)+(动词1作谓语)+(名词2作宾语)等,它是一句句子的单词或词组或从句的词性或相当词性和它在句子中所作成分组成的排列顺序表达式。\n研究表明词法、句法、句型三者之间有着及其密切的关系,词法和句法就像描述句子句型的两根坐标轴,句子的句型就是相对由这两个坐标轴组成的坐标系的句子的轨迹。对具体的某一个句子来说,一旦用于该句子的词法和句法确定了,那么该句子的句型也就被唯一地确定下来了,也就是说句法和词法具有控制句型的作用,实践中我们可以通过设置适当的词法和句法系统使句型变得简单明了。\n由于汉语是世界上使用人口最多的一种语言,而英语是世界上使用最广泛的一种语言,英文是互联网上文献资料最多的一种文字,又由于英语是拼音文,因此完成了英文的翻译也就完成了对英语的翻译,为了使本发明所阐述的方法更具普遍性和实用性,因此在本发明专利说明书举例时,我们采用汉语和英语的翻译为例,其实其方法和思路对汉语与其它外语的机器翻译或者一种外语与另外一种外语的机器翻译也是同样适用的。\n比如为了要完成汉语和英语之间的双向翻译,我们对汉语的词法系统和句法系统进行重新构造,使得汉语和英语的词法系统和句法系统基本一致,并在此基础上建立两种语言对应句型关系,翻译时通过将两种语言对应句型实行双向转换的方式来实现两种语言的双向机器翻译。\n具体来说汉语的词法部分,我们主要建立了与英语词类具有基本一致对应关系的汉语的十类词类比如:名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。这十类词的定义和在句中能够充当的成分与英语也具有基本一致的对应关系。还建立了与英语具有基本一致对应关系的汉语谓语动词的时体变化、汉语非谓语动词形态、汉语动词的语态和虚拟语气的形态等。\n具体来说汉语的句法部分,我们主要建立了与英语具有基本一致对应关系的汉语的八类句子成分比如:主语、谓语、宾语、表语、同位语、定语、状语、补语,以及这八类句子成分的定义和在句中能够充当八类句子成分的词类等。还通过研究大量的汉语的句子,根据汉语句子类型按其结构和表明的语气以及用途,将汉语句子分成与英语具有基本一致对应关系的以下几类:汉语句子的类型可以按从结构上来分和从语气及用途上来分,从结构上分又可以将句子类型分为单句和复句两类,其中单句可以进一步分成主谓句和非主谓句,非主谓句又包括无主句和独词句;复句又可以细分为并列复句、主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句。按从语气及用途上来分又可以将句子细分成四类:陈述句、疑问句、祈使句和感叹句。\n利用以上我们建立的与英语具有基本一致对应关系的汉语的词法和句法系统,我们用人工的方法建立了汉语的句型,再用人工的方法将相应的句子翻译成英语,并按同样的办法将得到的英语句子对照英语的词法和句法系统,我们可以得到该英语的句子的句型,此时这两句汉语和英语的句子就具有对应关系,由于此时的两种语言的句型是在基本相同的词法和句法系统中得到的,因此两种语言此时的不同主要表现在同一意义的单词书面表达形式的不同和句型的不同,前者只要通过汉英和英汉词典便可解决,这方面已经有很成熟的技术,后者可以通过人工建立起来的汉语和英语句型转换对照表进行句型转换便可,这样便完成了汉语与英语的翻译,同理也可以实现英语与汉语的翻译,这样便实现了汉语与英语的互译。\n我们把用以上方法分析许多句子得到的同一语言单词或词组词性串和句型对应表及不同语言句型对应表,并把处理非一一对应时计算机判别需要用到的汉语词法句法上下文联系及统计规律等预先储存在对应的备注栏里,这样我们便得到一个包含汉语词法句法上下文联系及统计规律的同一语言的词性串与句型转换对照表和不同语言句型与句型转换对照表,这样机器翻译的过程实际上就转变为机器不断扫描源语言的句子,通过查标注词性的词典得到源语言的句子的词性串,然后通过查源语言词性串与源语言句型的对应关系表,将源语言的句子的词性串转换成对应的源语言句型,再通过查源语言句型与目标语言句型对照表,将源语言句型转换成匹配的目标语言句型,最后通过查源语言和目标语言翻译词典的方法将源语言中的单词或词组翻译成目标语言的单词或词组,并按目标语言句型的顺序以词为单位排列输出,便得到我们所需要的目标语言的语句,其情形见附图。\n对于源语言中的文言文、诗词、成语、典故、俚语、缩略语等不便进行语法分析的内容,不进行词性查询和句型转换,在词性查询和句型转换前直接通过查找预先储存在机器中的一一对应的实例库匹配后输出。换句话说在进行机器翻译时,先进行实例库匹配,找不到匹配时,则再进行上述词性查找句型查找和转换的机器翻译程序。\n上述这些翻译程序的过程对包括汉英在内的所有的语言相互翻译是不变的,人们不断对上述对照表及词典和实例库增加对应转换关系以及增加备注信息的过程,就是增加机器翻译能力的过程,由于该对照表和词典及实例库是人类知识和智能的结晶,因此这种翻译系统是建立在人类知识和智能基础上的翻译系统,可以说这样的翻译系统实际上是机器和人类优势互补的系统,因为对机器来说它的特长是海量记忆、变化越少越好的程序化运行、高速查找匹配、高效转换输出,而人的特长是知识性、分析归纳性、智能性,以上机器翻译方法的设计恰好充分发挥了人和机器的这两个方面的不同特点。\n当我们将上述标注词性的源语言和目标语言翻译词典和上述同一种语言的词性串与句型及源语言与目标语言句型转换对照表及实例库换成其它语种的时,在机器翻译运行程序基本不变的情况下,就可以实现汉语与其它语种或其它语种与其它语种之间的翻译。\n四.附图说明\n[0028]附图是以汉语与英语句子为例的语言一与语言二双向可逆翻译顺序过程图。\n五.具体实施方式\n下面结合实施例对本发明的具体实施方式作进一步的说明。\n(一)所采用的语音码的每一音节声、韵、调的编码方法可以采用类似以下的方法:\n(注:括号内的符号均为汉语拼音符号,不带括号的字母为本发明所采用的汉语每一音节声、韵、调的编码,以上以下叙述均同。)\n1、声码的编码:\nb:(b) p:(p) m:(m) f:(f) d:(d) t:(t)\nn:(n) l:(l) g:(g) k:(k) h:(h)\nj:(zh)(j) q:(ch),(q) x:(sh),(x) r:(r)\nz:(z) c:(c) s:(s) y:(y) w:(w)\n2、介码的编码:\ni:(i) u:(u) y:(ü)\n3、韵码的编码:\na:(a) o:(o) e:(e) i:(i) u:(u) y:(ü)\nk:(ao) c:(ai) s:(an) x:(ou) w:(ei) n:(en)\nz:(ua) l:(uo) b:(ang) d:(ong) p:(eng)\nq:(ing) g:(ng) (无声母韵母) er:(er)\nr:(i)[只与(zh)、(ch)、(sh)相拼]\n4、调码的编码:\na:(-)阴平 e:(/)阳平 v:(∨)上声 u:(\)去声\no:(不标)轻声\n(二)利用上述编码的汉语信息全息表示可以采用如下的方法:\n以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开。\n这里由于将独立运用的汉字看作单音节词,因此,本发明的汉字编码的方法和汉语单词音节编码的方法相同,在本发明中单词音节编码按词连写后得到单词编码,我们将由若干个单词组成的一组词称为词组,本发明的词组的编码同汉语句子的编码相同,由于单词可以表示词组和汉语句子,因此词组的编码和汉语句子的编码都可以通过单词的编码实现,而不需要对词组和汉语句子另外制定一套专门的编码,一般在整句整篇以词为单位表示汉语信息时,在理解时一般不需要进行同音字词的选择,原则上听起来不会产生歧义的句子,用编码表达时也不会产生歧义。\n下面例举一些用本发明方法对汉语和英语进行双向翻译的例子:\n1.wovmno mwvtisa xrvydu laadqawnv.(汉语语音码表示的汉语信息)\n 我们 每天 使用 拉丁文。(用汉字表示的汉语信息)\na)查标注单词词性的汉语词典建立单词词性串:(句中括号内的部分是词性,以下均同)wovmno(人称代词1)+mwvtisa(时间名词1)+xrvydu(动词1)+laadqawnv(名词2).\n我们(人称代词1)+每天(时间名词1)+使用(动词1)+拉丁文(名词2)。\nb)根据上面得到的句子词性串查表得到预先储存在表中的汉语句型:(词性和该词所作的句子成分串组成句型,以下均同)\nwovmno(人称代词1作主语)+mwvtisa(时间名词1作时间状语)+xrvydu(动词1作谓语)+laadqawnv(名词2作宾语)\n我们(人称代词1作主语)+每天(时间名词1作时间状语)+使用(动词1作谓语)+拉丁文(名词2作宾语)\nc)根据上面得到汉语句型的查表得到预先储存在表中的对应的英语句型:\nwovmno(人称代词1作主语)+xrvydu(动词1作谓语)+laadqawnv(名词2作宾语)+mwvtisa(时间名词1作时间状语)\n我们(人称代词1作主语)+使用(动词1作谓语)+拉丁文(名词2作宾语)+每天(时间名词1作时间状语)\n此时查汉英词库进行单词或词组意思的转换并按此句型顺序输出便完成汉语翻译成英语的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换:\nd)根据上面得到英语句型查表得到预先储存在表中的与对应的英语单词或词组词性相一致的词性串:(该词性串也可从得到的目标语言句型中提取得到,以下均同)wovmno(人称代词1)+xrvydu(动词1)+laadqawnv(名词2)+mwvtisa(时间名词1).我们(人称代词1)+使用(动词1)+拉丁文(名词2)+每天(时间名词1)。\ne)查汉英词库进行单词或词组意思的转换并按上面所得到的英语句型的顺序输出:\nwe(人称代词1) use(动词1) latin(名词2) every day(时间名词1).\nwe use latin every day.\n这样便完成了汉语翻译成英语的转换,同时我们还可以看到除了从a转换到e外,我们还可以用同样的方法从e回到a,此时英语被转换成了汉语,表明用本发明的方法可以实现机器翻译过程可双向性,其过程可参见附图中的6至1沿b的过程。\n比如我们将翻译得到的英语句子“we use latin every day.”运用汉语翻译成英语的类似步骤,再将这句句子从e回到a和1,从汉语翻译成英语的路径反推回去,我们得到下面的步骤:\n1.“we use latin every day.”(我们翻译得到的英语句子)\nf)查标注单词或词组词性的英语词典建立单词或词组的词性串:\nwe(人称代词1)+use(动词1)+latin(名词1)+every day(时间名词2).\ng)根据上面得到的句子词性串查表得到预先储存在表中的英语句型:\nwe(人称代词1作主语)+use(动词1作谓语)+latin(名词1作宾语)+every day(时间名词2作时间状语)\nh)根据上面得到英语句型查表得到预先储存在表中的对应的汉语句型:\nwe(人称代词1作主语)+every day(时间名词2作时间状语)+use(动词1作谓语)+latin(名词1作宾语)\n此时查汉英—英汉双向词库进行单词或词组意思的转换并按此句型顺序输出便完成英语翻译成汉语的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换:\ni)根据上面得到汉语句型查表得到预先储存在表中的与对应的汉语单词或词组词性相一致的词性串:\nwe(人称代词1)+every day(时间名词2)+use(动词1)+latin(名词1)\nj)查汉英—英汉双向词典进行单词或词组意思的转换并按上面所得到的汉语句型的顺序输出:\n我们(人称代词1) 每天(时间名词2) 使用(动词1) 拉丁文(名词1).\n我们 每天 使用 拉丁文。\n这样我们重复汉语译英语的过程就又得到了我们刚才交给系统翻译成英语的汉语句子,说明了该机器翻译方法具有双向可逆性。\n为了说明复句句子翻译的过程,我们再运用与上面相类似的方法将下列两句汉语复句句子翻译成英语:\n1.Taamno jradku wovmno mwvtisa xrvydu laadqawnv.(语音码汉语信息)\n 他们 知道 我们 每天 使用 拉丁文。 (汉字汉语信息)\n2.wovmno mwvtisa xrvydu laadqawnv xru jduslvjxajradeo.(语音码汉语信息)\n 我们 每天 使用 拉丁文 是 众所周知的。 (汉字汉语信息)\nk)查标注单词词性的汉语词典建立单词词性串:\n1.Taamno他们(人称代词1)+jradku知道(动词1)+wovmno我们(人称代词2)+mwvtisa每天(时间名词1)+xrvydu使用(动词2)+laadqawnv拉丁文(名词2).\n2.wovmno我们(人称代词1)+mwvtisa每天(时间名词1)+xrvydu使用(动词1)+laadqawnv拉丁文(名词2)+xru是(联系动词2)+jduslvjxajradeo众所周知的(形容词1).\nl)根据上面得到的句子词性串查表得到预先储存在表中的汉语句型:\n1.Taamno他们(人称代词1作主句主语)+jradku知道(动词1作主句谓语)+宾语从句宾语从句句型:wovmno我们(人称代词2作从句主语)+mwvtisa每天(时间名词1作从句时间状语)+xrvydu使用(动词2作从句谓语)+laadqawnv拉丁文(名词2作从句宾语).\n2.主语从句+xru是(联系动词2起联系主语从句和表语作用)+jduslvjxajradeo众所周知的(形容词1作表语).\n主语从句句型:wovmno我们(人称代词1作从句主语)+mwvtisa每天(时间名词1作从句时间状语)+xrvydu使用(动词1作从句谓语)+laadqawnv拉丁文(名词2作从句宾语).\n对上面得到的所有从句再重复上面的步骤再进行进一步分解,一直分解到只有单句没有复句为止,由于上面两句从句已经是单句,所以不再需要进行进一步分解,直接重复运用上面翻译单句的步骤对得到的这两句从句进行翻译,对上面分析复句时,从句重复分析过的步骤,翻译从句时可以省略,这样我们重复运用上面翻译单句的步骤,便可以得到我们需要的从句:“we uselatin every day.”\nm)根据上面得到汉语句型查表得到预先储存在表中的对应的英语句型:\n1.Taamno他们(人称代词1作主句主语)+jradku知道(动词1作主句谓语)+that(从属连词引导宾语从句在英语中也可以省略)+宾语从句\n2.That(从属连词引导主语从句)+主语从句+xru是(联系动词2起联系主语从句和表语作用)+jduslvjxajradeo众所周知的(形容词1作表语).\n或:It(代词1作形式主语)+xru是(联系动词2起联系主语从句和表语作用)+jduslvjxajradeo众所周知的(形容词1作表语)+that+(从属连词1引导主语从句)+主语从句.\n此时查汉英词库进行单词或词组意思的转换并按此句型顺序输出便完成汉语翻译成英语的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换:\nn)根据上面得到英语句型查表得到预先储存在表中的与对应的英语单词或词组词性相一致的词性串:\n1.Taamno他们(人称代词1)+jradku知道(动词1)+that(从属连词1)+宾语从句\n2.That(从属连词1)+主语从句+xru是(联系动词2)+jduslvjxajradeo众所周知的(形容词1).\n或:It(代词1)+xru是(联系动词2)+jduslvjxajradeo众所周知的(形容词1)+that(从属连词引导主语从句)+主语从句.\no)查汉英词库进行单词或词组意思的转换并将上面已经翻译得到的从句放入相应复句句型的相应位置中,最后按上面所得到的英语句型的顺序输出,我们得到下面我们所要得到的整个目标语句子:\n1.They(人称代词1)+know(动词1)+that(从属连词1)+宾语从句宾语从句:we(人称代词2)+use(动词2)+latin(名词2)+every day(时间名词1).\nwe use latin every day.\n将上面已经翻译得到的从句放入相应复句句型的相应位置中:\nThey(人称代词1)+know(动词1)+that(从属连词1)+we(人称代词2)+use(动词2)+latin(名词2)+every day(时间名词1).\nThey know that we use latin every day.\n2.That(从属连词1)+主语从句+is(联系动词2)+well known(形容词1).或:It(代词1)+is(联系动词2)+well known(形容词1)+that(从属连词1)+主语从句.\n主语从句:we(人称代词1)+use(动词1或2)+latin(名词2)+every day(时间名词1).\nwe use latin every day.\n将上面已经翻译得到的从句放入相应复句句型的相应位置中:\nThat we use latin every day is well known.\n或:It is well known that we use latin every day.\n同理,我们也可以将所得到的英语按上面的步骤翻译还原成原来的汉语复句句子,这样我们运用上面的方法就可以对所有的汉语和以英语为代表的外语的单复句进行双向可逆翻译,进而就实现了对以英语为代表的外语的双向翻译。\n随着社会的发展,单词和句型甚至语法理论都会发展,在这种情况下我们只要将新增加的单词对照关系增加到词典中,将新增加的句型对照关系增加到表中,机器仍旧按原来的翻译程序运行它就能满足社会发展的需要,整个需要机器自动运行的程序部分可以做到以不变应万变,具有与时俱进的特点,当语法理论发展时会引起词法理论和句法理论的发展,这时会引起单词或词组词性串的表达式和句型表达式发生变化,由于这部分是由人工建立并不影响到机器原来的翻译程序,因此只要我们将这新的单词或词组词性串的表达式和句型表达式的对照关系加入表中,机器仍然按原来的翻译程序运行,就能从翻译结果中很好地体现这种新发展。\n由于以上三种情况的改变都是通过人工进行的,因而是非常可靠的,又由于人具有知识性、分析归纳性、智能性的特点,因此可以说本发明的翻译方法是建立在人的知识性、分析归纳性、智能性基础上的,因此是一个非常优秀的机器翻译方法。\n如果我们将任意源语言和目标语言的不便于语法分析内容的实例库、任意源语言和目标语言的标注词性的双向翻译词典、同一语言的句子词性串的表达式和句型表达式的对照关系表以及不同语言间的句型转换对照表加入系统中,并用相同的翻译程序运行它,我们就可以实现任意语言间的双向翻译,值得指出的是上述各种转换对照表尽量要建立在相同或相近的词法系统和句法系统基础上,这样源语言和目标语言的不同就仅仅表现为单词或词组及句型的不同,在机器翻译过程中需要转换的仅仅是单词或词组及句型,词法系统和句法系统由于相同或相近,因此一般不再需要转换。\n到底是源语言向目标语言的词法系统和句法系统靠拢,还是目标语言向源语言的词法系统和句法系统靠拢,主要看源语言和目标语言哪一个语言的词法系统和句法系统更科学、更先进、更便于准确精细地描写句型,本发明例将汉语的词法系统和句法系统向英语的词法系统和句法系统靠拢,是因为英语语法研究的历史比汉语长,其包含词法系统和句法系统的语法理论比汉语更科学、更先进、更成熟、更便于准确精细地描写句型。\n当源语言是用汉字或汉语拼音或汉语语音表达的汉语时,既可以按传统的方法无需转换直接进行翻译,也可以通过标准转换模块先将汉字或汉语拼音或汉语语音转换成汉语语音码再进行翻译,外语翻汉语时,翻译得到的用汉语语音码表示的目标语言可以直接用来表示汉语信息,需要时也可以通过标准转换模块转换成汉字或汉语拼音或汉语语音或汉语特定人、汉语方言以及少数民族语言语音输出。比如:\n1.将汉字和汉语拼音转换成汉语语音码:\n(1)对汉字首先将汉字通过查表的方式转换成对应的汉语拼音:\n比如:“我们会使用汉语拉丁文。”转换成拼音后成为:\nwǒmen huìshǐyòng hàn yǔlādīng wěn。\n(2)对由汉字转换过来的或原有的汉语拼音则通过以上汉语拼音和汉语语音码码表对照表将汉语拼音转换成如下汉语语音码串。\nwov mno huiu xrv ydu hsu yyv laa dqa wnv.(音节和音节之间用空格隔开)\n或wovmnohuiuxrvyduhsuyyvlaadqawnv.(音节和音节之间不用空格隔开)\n(熟练后mno中的轻音符o在不引起混音时可以省略,以上以下均同。)\n为了让大家看清楚,这里将表示声调的字母加了下划线,语音码中的声调字母同时具隔音节作用,实际语音码中声调无下划线,熟练语音码后,声调兼隔音节符能够方便区分出来。以上以下均同。\n(3)将语音码串进行分词切割,最终完成语音码转换。\n通过查找预先分好词的汉语语音码单词词库,将同一个单词的多个音节连写,词与词之间用空格隔开便得到以下我们最终需要的汉语语音码:\nwovmno huiu xrvydu hsuyyv laadqawnv.\n2.汉语语音码转换成汉字和汉语拼音:\n通过分别查找汉语语音码与以词为单位的汉字和汉语拼音对照表可以方便地将汉语语音码转换成汉字和汉语拼音,比如:\nwovmno通过查声码、介码、韵码、调码和汉语拼音对照表或根据该对照表生成的汉语语音码音节或单词与拼音音节或单词对照表得到wǒmen,再通过wǒmen查找到以词为单位的汉字,当以单词为单位的语音码通过以单词为单位的汉语拼音与以单词为单位的汉字建立对应关系后,一旦需要以单词为单位的语音码可以不再需要通过以单词为单位的汉语拼音,直接与以单词为单位的汉字建立对应关系并实行相应的转换。比如:wovmno可以转换为wǒmen,再通过wǒmen可以转换成“我们”,这样wovmno和“我们”便直接建立了对应关系,需要时可以不通过汉语拼音wǒmen进行转换,而直接在wovmno和“我们”之间实现双向可逆转换。\n遇同音词时,可以依据汉语词法句法上下文联系及统计规律等手段进行判别后进行以词为单位的汉字选定。比如:ysvlune上装满了邮包。ysvlune上装满了原油。结合上下文的联系可以知道:前面一句中的“ysvlune”代表邮轮,后面一句中的“ysvlune”代表油轮,机器依据汉语词法句法上下文联系及统计规律等手段进行判别后,这两句话分别会转换成“邮轮上装满了邮包”和“油轮上装满了原油”。对其它单词情况也依次类推。\n3.汉语语音转换成汉语语音码:\n比如:我们用汉语语音朗读向机器输入“我们会使用汉语拉丁文。”\n(1)通过查找预先储存在机器中的汉语音节语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语音节语音码串:\nwov mno huiu xrv ydu hsu yyv laa dqa wnv.(音节与音节之间有空格)\n或wovmnohuiuxrvyduhsuyyvlaadqawnv.(音节和音节之间不用空格隔开)\n(2)将语音码串进行单词切分,最终完成以词为单位的语音码转换。\n通过查找预先分好词的汉语语音码单词词库,将同一个单词的多个音节连写,词与词之间用空格隔开便得到以下我们最终需要的汉语语音码:\nwovmno huiu xrvydu hsuyyv laadqawnv.\n4.汉语语音码转换成汉语语音:\n当语音码转换成语音时,可以分别采用查汉语语音码与音节、单词、最大匹配语段语音合成文件对照表输出相应的语音。\n比如:wovmno huiu xrvydu hsuyyv laadqawnv.\n它是汉语语音码所表达的汉语信息,其意义用汉字表达为:\n“我们会使用汉语拉丁文。”\n查汉语语音码和汉语音节或单词或最大匹配语段语音合成文件对照表后得到与语音码对应的汉语语音的声音文件,用声音播放软件依次顺序播出,词与词之间采用比同一单词音节之间更长的时间间隔来依次连续播出,这样会听起来更接近按词朗读的效果,更符合人们听语音的习惯。\n汉语语音按音节合成时有:\nwov(wǒ.wav)mno(men.wav)huiu(huì.wav)xrv(shǐ.wav)ydu(yòng.wav)hsu(hàn.wav)yyv(yǔ.wav)laa(lā.wav)dqa(dīng.wav)wnv(wěn.wav).\n汉语语音按单词合成时有:\nwovmno(wǒmen.wav)huiu(huì.wav)xrvydu(shǐyòng.wav)hsuyyv(hànyǔ.wav)laadqawnv(lādīngwěn.wav).\n汉语语音按最大匹配语段合成时有:(假设通过查预先储存在机器中的最大匹配语段为:“wovmno huiu xrvydu我们会使用”和“hsuyyv laadqawnv汉语拉丁文”)\nwovmno huiu xrvydu(wǒmen huìshǐyòng.wav)hsuyyv laadqawnv(hànyǔlādīngwěn.wav).\n为表述方便这里的声音文件分别用“相对应的音节或单词或最大匹配语段汉语拼音.wav”表示,实际情况中是没有汉语拼音符号的,它只是预先储存在机器中,可以通过一定的声音播放软件播放的表示相应的汉语语音的声音文件。\n同理,上述三种情况中如果语音码对应的音节、单词、语段的汉语语音合成文件分别换成汉语特定人、中国方言、少数民族语言的语音合成文件时,则机器合成出来的就分别是汉语特定人、中国方言、少数民族语言的语音。\n在汉语信息表示处于汉字或汉语拼音状态时,其标点符号的用法同传统的中文标点符号相同,汉语信息表示处于汉语语音码状态时其标点符号的用法同英文。汉语语音码表示汉语信息时与英文用法相一致的标点符号共有十三种,它们分别是:\n六种点号:句号“。”问号“?”感叹号“!”逗号“,”冒号“:”分号“;”\n七种标号:引号“”括号()破折号“-”省略号…着重号.书名号(())间隔号.\n一个移行号:移行号“-”\n对于对于源语言中的文言文、诗词、成语、典故、俚语、缩略语等不便进行语法分析的内容,不进行词性查询和句型转换直接通过查找预先储存在机器中的一一对应的实例库匹配后输出。机器翻译时该程序块优先于词性句型查找和转换程序运行。\n比如:汉语成语“智者千虑,必有一失”由于该句不是现代汉语,无法按现代汉语进行语法分析,因此直接通过从实例库查找匹配后输出目标语句子如英语:“The best marksmanmay miss the mark.”同理对遇到的外语的类似上面的句子,也可以直接通过从实例库查找匹配后输出目标语句子。\n依此类推,用上述方法,在建立任意语言间相同或相近的词法系统和句法系统的基础上,我们通过建立任意语言间标注词性的单词和词组的转换词典、任意同一语言句子词性串和句型对应表及任意不同语言句型对应表、任意语言间一一对应的不便于语法分析内容的实例库,运用上面的相同的翻译过程就可以实现包含汉语英语在内的对所有的任意种语言间的双向机器翻译。
法律信息
- 2021-09-14
未缴年费专利权终止
IPC(主分类): G06F 17/28
专利号: ZL 200610030284.4
申请日: 2006.08.22
授权公告日: 2010.08.18
- 2021-04-23
文件的公告送达
文件的公告送达失败
收件人: 苗玉水
文件名称: 专利权终止通知书
- 2020-11-10
文件的公告送达
文件的公告送达失败
收件人: 江苏华音信息科技有限公司专利负责人
文件名称: 缴费通知书
- 2013-10-16
专利权的转移
登记生效日: 2013.09.16
专利权人由苗玉水变更为江苏华音信息科技有限公司
地址由200093 上海市杨浦区控江一村44号甲105室变更为215411 江苏省苏州市太仓市科教新城健雄路20号
- 2010-08-18
- 2008-04-23
- 2008-02-27
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
1992-04-01
|
1990-09-20
| | |
2
| |
2005-08-10
|
2004-02-04
| | |
3
| |
1993-11-17
|
1993-03-23
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2018-03-28 | 2018-03-28 | | |
2 | | 2011-07-26 | 2011-07-26 | | |
3 | | 2011-07-26 | 2011-07-26 | | |