著录项信息
专利名称 | 机器翻译系统及方法 |
申请号 | CN200510119355.3 | 申请日期 | 2005-11-02 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2006-05-10 | 公开/公告号 | CN1770144 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/28 | IPC分类号 | G;0;6;F;1;7;/;2;8查看分类表>
|
申请人 | 株式会社东芝 | 申请人地址 | 日本东京都
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 株式会社东芝 | 当前权利人 | 株式会社东芝 |
发明人 | 铃木博和;熊野明 |
代理机构 | 永新专利商标代理有限公司 | 代理人 | 王英 |
摘要
机器翻译系统包括:存储单元,被配置为存储多个解释数据项,每个数据项包括代表第一语言的第一表示的第一表示元素、包括第一表示的词语集合元素、以及代表第二语言的第二表示的第二表示元素,第一表示将被翻译为第二表示,第一表示和第二表示属于一个类别;获取单元,被配置为获取第一语言的预定表示,预定表示包含于具有结构的待翻译文本中,并且从该待翻译的文本中获取与该预定表示具有相同属性或与该预定表示具有所述结构中的等同的位置关系的第一词语集合;检测单元,被配置为从解释数据项中检测包括代表预定表示的表示元素的解释数据项;选择单元,被配置为从检测到的解释数据项中选择包括与所述第一词语集合之一对应的词语集合元素的解释数据项;翻译单元,被配置为利用选中的解释数据项将预定表示翻译成第二语言。
机《«译系统及方法技术领域本发明涉及一种机器翻译系统及方法。 背彔技术在一个使用计算机将用第一语言(源语言)书写的句子翻译成用 第二语言(目标语言)书写的句子的机器翻译系统中,首先,输入句 子通过语素分析或句子结构分析被划分为预定的翻译单元(例如词语 和短语)。随后,在处理单元中对翻译词典进行搜索以确定要应用的 翻译规则,从而确定相应的译文词语(短语)。被确定的词语(短语) 按照一个预定的翻译规则被连接,从而获得与输入句子对应的译文。在一个具有诸如表格结构或其中词语或句子按顺序排列的列举 结构等结构的文档中,如果对表格结构或列举结构进行翻译,则将表 格的每个单元格中的词语或句子,或被列举的词语或句子提取出来, 并输入到一个如上所述的机器翻译系统进行翻译。例如那些规则地排列为结构元素的表格的单元格中的句子或列 举的句子,很可能不具有语法上正确的结构,也很可能非常短。因此, 上述逐一从表格结构或列举结构提取句子并进行机器翻译的方法,不 提供许多对于翻译的分析或从可能的句子中进行选择来讲非常关键 的信息,这导致翻译准确性的降低。当翻译标准句子时,利用了在句子中和上下文中共同出现的信息(参见,例如日本专利申请特开平NO. 3-175573)。但是,如果将这 种方法直接应用到对表格结构或列举结构的数据的翻译,那么由于共 同出现的方式会依赖于句子在结构中的排列而变化,所以很难输出固 定的翻译结果。具体来说,例如以下的例子, 一个列举结构为:月、(口) 火、(")水…,日文字符(<),(口)和(八)属于"次序"类别。因此,日文字符(O, (口)和(八)最好分别翻译为数字(1), (2) 和(3),或者字母(a), (b),和(c)。月,火,水是日文词语。月 的意思为星期一 (Getsu)或月亮(Tsuki),火的意思为星期二 (Ka) 或火(Hi),水的意思为星期三(Sui)或水(Mizu)。有一个类似的 列举结构为:(7)月、(4 )火、(々)水…。在这种情况下,日文字符(7 ),( < )和(々)最好被分别翻译为数字(1), (2)和(3), 或者字母(a), (b)和(c)。因此,在前一个例中,日文字符") 应该被翻译为(l)或(a),但在后一个例子中,同样的日文字符(<) 应该被翻译为(2)或(b)。此外,甚至可能出现列举结构包含在嵌 套结构中的情况,其中很可能出现两个或两个以上的多义字符,如上 述字符( < )。在使用共同出现的信息的传统翻译中,由于列举结构 的规则,不能执行翻译,根据该规则,字符被有规则地排列。因此, 如上述字符( < )的多义字符会被错误地翻译,这降低了翻译的质量。 此夕卜,包含在列举结构中的日文字符(词语)月(Getsu)、火(Ka)、 水(Sui)……的集合表明这些词语实际上都属于"一周中的某天" 这一类别。因此,这些词语应该被分别翻译为"Monday"、"Tuesday"、"Wednesday",……。但是,日文词语月、火、水……还分别表示"moon"、 "fire"、 "water",……。在现有翻译技术中,其中,由于 如上所述的列举结构的规则(在该规则下词语有规则地排列),不能 执行翻译,词语月、火、水……就很可能被分别翻译为"mooii"、"fire"、"water"等标准(缺省)的译文词语。对表格结构来说也一样。具体来说,当在表格结构中时,在每一 列(行)的索引行(列)上存在存储日文词语月、火、水……的单元 格,这些词语就应该被翻译为"Monday " 、 " Tuesday "、"Wednesday"、……,因为词语月、火、水……的集合表明这些词语 属于"一周中的某天"这一类别。但是,在现有的技术中,正如列举 结构的情况一样,因为由于表格结构的行(列)方向的规则(根据该 规则词语被有规则地排列)而不能进行翻译,词语月、火、水……很 可能被分别翻译为"moon"、 "fire"、 "water"等标准(缺省)译文词 语。如果利用共同出现的信息的翻译方法被应用于表格的翻译,那么对于某一单元格的翻译可能会被表格中其他同该单元格具有较少关 联度的单元格(例如:位于斜上方或斜下方的单元格)影响。因此, 可靠的翻译仍然很困难。如上所述,现有技术不能正确地翻译具有表格结构或列举结构地 文档,在所述文档中词语或句子有规则地排列。发明内容根据本发明的第一方面,提供了一种机器翻译系统,包括:存储 单元,被配置为存储多个解释数据项,每一个解释数据项包括:第一 表示元素,它代表第一语言的第一表示,词语集合元素,它包括第一 表示和代表第二语言的第二表示的第二表示元素,第一表示将被翻译 为第二表示,第一表示和第二表示属于一个类别;获取单元,被配置 为获取第一语言的预定表示,该预定表示被包含在具有结构的待翻译 文本中;检测单元,被配置为从解释数据项中检测其中每个解释数据 项包括代表预定表示的表示元素的多个解释数据项;选择单元,被配 置为从被检测的解释数据项中选择包含词语集合元素的解释数据项, 该词语集合元素在结构中对应于相同属性或等同的位置关系;翻译单 元,被配置为利用选中的数据项将预定的表示翻译成第二语言。根据本发明的第二方面,提供了一种机器翻译方法,包括:配备 存储单元,它被配置为存储多个解释数据项,每个数据项包括:第一 表示元素,它代表第一语言的第一表示,词语集合元素,它包括第一 表示和代表第二语言的第二表示的第二表示元素,第一表示将被翻译 为第二表示,第一表示和第二表示属于一个类别;获取第一语言的预 定表示,该预定表示被包含在具有结构的待翻译文本中;从解释数据 项中检测多个解释数据项,每个解释数据项包括代表预定表示的表示 元素;从检测的解释数据项中选择包括词语集合元素的解释数据项,该词语集合元素在结构中对应于相同属性或等同的位置关系;利用选中的解释数据项将预定的表示翻译成第二语言。 附图说明图1是说明根据本发明实施例的机器翻译系统的结构实例的框图;图2是说明具有例如表格结构的文档的视图;图3是说明图2的表格的每个单元格中的数据实例的视图,其存 储在内部结构数据存储单元;图4是说明存储在内部结构解释数据库中的解释数据的具体实 例的视图;图5是用于解释图1的机器翻译系统的操作的流程图;图6是说明具有例如表格结构的文档的视图;图7是说明在图6的表格的每个单元格中的数据实例的视图,其 存储在内部结构数据存储单元;以及图8是说明存储在内部结构解释数据库中的解释数据的具体实 例的视图。具体实施方式以下将参照附图详细描述本发明的实施例。考虑到上述问题,开发了本发明的实施例,其目的是提供用于高 度准确并可靠地翻译具有表格结构或列举结构的文档的机器翻译系 统。提供一种在机器翻译系统中使用的机器翻译方法也是它的一个目的。本发明的实施例能高度准确并可靠地翻译具有表格结构或列举结构的文档。图1是说明根据本发明实施例的机器翻译系统的结构实例的框图。如图所示,输入单元1获取文档(原始文档)的电子数据(以下 简称为"文档")作为翻译对象,并将它输出到控制器2。输入单元l 由例如键盘,鼠标等构成,用户对其操作以输入文档。输入单元l可 以由用于从计算机可读介质读取数据的读取单元构成,例如一个光学 字符阅读器(OCR),软盘,磁带,磁盘或光盘。输入单元1将这样 读取的文档提供给控制器2。此外,输入单元1用于向控制器2提供各种命令。输出单元3输出由控制器2提供的翻译结果。此外,例如,输出 单元3在控制器2的控制下,在显示单元(未示出)的屏幂上显示翻 译结果。输出单元3以声音的形式输出翻译结果,并且显示出控制器 2对某个命令所作的响应。输出单元3也可以由各种类型的显示单元、打印单元、用于向计 算机可读介质输出数据的输出单元、用于向其它介质传送文档的传输 单元构成,所述计算机可读介质是例如光学字符阅读器(OCR)、软 盘、磁带、磁盘或光盘。翻译单元4在控制器2的控制下,使用稍后描述的翻译词典5, 对从输入单元1输入的原始文档执行翻译处理,以及将翻译结果输出 给控制器2。翻译词典5存储词汇词典(未示出),以及翻译处理所需的各种 规则。例如,翻译词典5存储词语/成语词典,语素分析规则,结构/ 含义分析规则,译文转换规则,译文生成规则等。控制器2在待翻译的文档中检测结构,在结构中词语或句子(表 示元素)被规则地排列,例如表格结构,列举结构,或诸如章/节这 样的层次结构。具体来说,当在待翻译的文档中检测到章或节时,包 括通常被包含在章或节的标题句中的字符串(例如:"第一章","第 二章",……,"Ch", "Sec"等)的字符串被确定为章或节的标题句。 从而,章或节被检测出来。类似地,当检测表格结构时,在文档中检 测到格线,并且确定该格线是否定义了一个矩形,以及该矩形是否包 含被其它格线分割的区域。对于列举结构的情况,可以基于每个句子 头部的縮进或一个附加的符号检测。此外,如果待翻译文档是带有如 HTML或XML等标记的结构化的文档,则可以通过检测标记来容易 地检测。当在待翻译文档中检测到例如表格结构或层次结构的结构时,控 制器2将包括在待翻译文档中的整个检测到的结构传送给文档结构 分析单元6。文档结构分析单元6分析结构,并从结构中提取出作为 结构的组成部分而排列的词语、短语或句子(表示元素)的集合(在下文中简称为"词语集合元素(表示集合元素)")。内部结构数据存储单元7存储包含在所检测的结构中并被文档 结构分析单元6提取出来的词语集合元素。存储的数据在适当的时间 被擦除,例如当所检测的结构己被完全翻译时。如果待翻译的结构是嵌套的结构,则文档结构分析单元6可以对 整个结构进行搜索,并将所有的词语集合元素存储到内部结构数据存 储单元7中,或者可以例如以反馈的方式来进行结构分析,以实现在 包含在结构中的小结构单元中的处理。在这种情况下,如果内部结构 数据存储单元7利用例如栈结构这样的数据结构,则能以反馈的方式存储包含在结构中的词语集合元素。每当以反馈方式进行的结构分析 处理完成时,可以进行存储数据的擦除。内部结构解释数据库8存储多个解释数据项。这些数据项包括了 指示结构中容易被错误解释的词语或句子的数据,以及与待翻译词语 或句子属于相同域的词语集合元素。数据项还指示了技术,该技术关 于:如果词语集合元素与待翻译词语或句子具有相同的属性或与待翻 译的词语或句子在结构上具有等同的关系,则应该如何翻译(解释) 待翻译词语或句子,所述词语集合元素与待翻译词语或句子属于相同 (领)域。每一个解释数据项可以还包括一个条件,在该条件下进行 与其中包含的词语集合元素的匹配。例如,条件指示匹配的最小数量, 对包含在词语集合元素中的词语的出现顺序的限制,或关于是否需要 完全匹配还是允许非完全匹配的判断。在翻译的过程中,翻译单元4査询内部结构解释数据库8以确定 数据库8中是否包含可用于内部结构数据存储单元7中存储的每个词 语集合元素的解释数据。在这种情况下,当解释数据包含上述条件时,内部结构解释数据库8使用所述条件来判断结构中的词语集合元素 是否和解释数据中的一样。如果没有可用的解释数据,则报告给翻译 单元4,进行标准的翻译处理。如果检测到可用的解释数据,它被发 送至翻译单元4,其中,关于每个待翻译词语的解释被解释数据的解 释替代,从而进行翻译处理。参见图5所示的流程,以具有图2所示的表格结构的文档的翻译作为例子,对图1的机器翻译系统的操作进行更加详细的描述。当具有图2所示的表格结构的文档数据作为原始文档数据被输 入至输入单元1时,输入单元1将文档数据传输到控制器2。控制器 2确定输入的原始文档数据是否由标准的句子或具有结构的句子构 成。如果确定输入的句子具有结构,则确定结构的类型,即,确定该 结构是否是例如表格结构,列举结构,或章/节结构。在本例中,由 于输入文档是表格,所以图2的整个表格被发送至文档结构分析单元 6 (步骤S1)。文档结构分析单元6分析所收到的表格结构数据。在本例中,确 定数据为图2所示的7行3列的表格,从而提取包含在每个单元格中 的词语集合元素并将其发送到内部结构数据存储单元7 (步骤S2)。内部结构数据存储单元7存储了被文档结构分析单元6所提取出 的表格数据。此时,表格数据被存储以便能够区别它的列数据和行数 据。例如,数据可以被存储于一个一维表格,所以词语和包含在7行 3列表格中的单元格之间的关系就会很清楚。图3显示了这个例子。 如图所示,指示图2的表格是由7行3列所构成的信息被存储,以一 维的方式,通过分割号"/"连接图2中从第一行第一列的单元格到 第七行第三列的单元格中的词语。如果按顺序查询被"/"所分隔的 词语,就可以检测到每个词语位于哪行哪列。或者,关于例如(mX n)单元格中的词语的信息,例如坐标(m, n)的信息可以被附加到 每个单元格的词语上,带有信息的词语被单独存储。控制器2从图2所示的表格的单元格逐一地读取词语,并将读入 的词语连同例如每个单元格的坐标信息发送到翻译单元2(步骤S3)。 翻译单元4接下来利用翻译词典5中存储的知识(词语/字汇词典, 语素分析规则,结构/含意分析规则,转换规则,生成规则),开始将 从控制器2发送来的每个原始词语翻译为目标语言的相应词语。这 时,翻译单元4将指示当前翻译的原始词语的信息,以及从控制器2 发送的坐标信息,发送到内部结构解释数据库8,从而査询数据库8 中是否存在可用的解释数据。这里假设包含在图2的表格中第一列第二行的原始词语是曰文词语"月"。在本例中,只有词语"月"可被作为原始词语发送。或 者,可以对其进行语素分析,并发送词语及分析结果。类似地,结构 分析结果,含意分析结果,转换结果和/或生成结果可与词语一同被发送。此外,由于原始词语位于第二行第一列,数据(2, 1)可被作 为坐标数据发送。图4显示了存储于内部结构解释数据库8中的解释数据的实例。 该解释数据对应于属于包含在第一语言(例如,日语)中的任意类别的词语或句子集合(表示集合元素)中的每个词语或句子,类别例如:一周中的某天或日本的地区名。解释数据用来将如上所述的词语或句 子翻译为属于第二语言(如英语)中相应类别的相应词语或句子。每 个解释数据项都包含一个首词语,词性,译文,以及包含首词语且属于任意类别的词语或句子集合。在图4的例子中,词语集合元素中 包含的词语由分隔符"/"所连接。如果包含在解释数据中的词语集 合元素的词语的出现顺序是预定的,则词语按照预定的顺序进行排 列。解释数据可以包括词语集合元素以及条件,该条件用于确定从原 始文档数据中提取的词语集合元素和解释数据中包含的词语集合元 素是相同的。条件指示例如,包含在从原始文档数据中提取出的词语 中并且与包含在解释数据的词语集合元素中的词语等同的词语的最 小数量。在英文词语集合元素的情况中,条件可以指示是否要区分大 写和小写字符。条件也可以指示应该考虑词语出现(排列)的顺序。 后面将更详细地描述这些条件。从翻译单元4接收到有关待翻译的原始文档数据的信息以及坐 标信息后,接着基于接收到的坐标信息,内部结构解释数据库8访问 内部结构数据存储单元7以获取与当前处理的表格位于相同列或行 的词语集合元素(S4)。在本例中,由于坐标是(2, 1),从存储在内 部结构数据存储单元7中的图3所示的数据获取对应于第二行的单元格的词语集合元素,以及对应于第一列单元格的词语集合元素。根据 图3,第二行的词语集合元素是"月(Gutsu),月(Tsuki),関東(Kanto,意为Kanto地区,日本某个地区的名字)"(词语集合元素A)。类似 地,第一列中的词语集合元素是" 一周中的某天,月(Getsu,意为星期一),火(Ka,意为星期二),水(Sui,意为星期三),木(Moku, 意为星期四),金(Kin,意为星期五),土 (Do,意为星期六)"(词 语集合元素B)。从内部结构数据存储单元7中获取词语集合元素A和B之后, 内部结构解释数据库8基于从翻译单元4获取的原始文档数据搜索解 释数据。使用例如首词语"月"作为关键字,搜索图4所示的解释数 据(步骤S5)。这里假定以下的两个解释数据项被获取: "月;名词;Monday;月/力水休/金/土/日" "月;名词;Moon;月/地球/火星/水星/木星/金星/土星汰陽"这两个解释数据项分别包含词语集合元素"月(Geteu),火(Ka), 水(Sui),木(Moku),金(Kin), 土 (Do),日(Nichi)"(词语集 合元素C)以及"月(Tsuki,意为月亮),地球(Chikyu,意为地球), 火星(Kasei,意为火星),水星(Suisei,意为水星,木星(Mokusei, 意为木星),金星(Kinsei,意为金星),土星(Dosei,意为土星), 太陽(Tasiyou,意为太阳)"(词语集合元素D)。这时,在词语集合 元素C和D,以及从原始文档数据获取并存储在内部结构数据存储单 元7中的词语集合元素A和B之间进行匹配(步骤S6)。对于该匹 配,上述条件能被有效地使用。例如,为了判断包括在某个原始文档 数据中的词语集合元素是否和包括在某个解释数据中的词语集合元 素等同,可以采用这样一个条件,即,必须有k个或更多个包括在原 始文档数据的词语集合元素中的词语和解释数据中的相同。或者,可 采用这样一个条件,即,在原始文档数据和解释数据之间,词语集合 元素的所有词语必需相同。类似地,可采用这样一个条件,即,在原 始文档数据和解释数据之间,只有部分词语集合元素相同。此外,可 采用这样一个条件,即,在原始文档数据和解释数据之间,词语集合 元素的所有的词语甚至词语的排列顺序都必须相同。对这些条件的适 当使用使得可以自由地控制匹配过程。在上述的例子中,由于词语集合元素B和C之间的匹配度高, 因此内部结构解释数据库8确定词语集合元素B和C彼此相同。因 此,选择前一个解释数据项,艮P,"月;名词;Monday;月/勿水/木/金/土/日"(步骤S7)。根据解释数据项这一点是明显的,每个解释数 据项包含诸如"词性"和"译文词语"等翻译所霈的信息。在所选中 的解释数据项的情况中,选择"Monday"作为图2的表格中第一列 第二行的单元格中的日文词语"月"的翻译,并被发送到翻译单元4。在从内部结构解释数据库8接收到解释结果后,接着,翻译单元 4基于所收到的解释结果执行翻译处理,并将翻译的结果,即译文词 语"Monday"发送到控制器2。当接收到翻译结果后,接着,控制器2将它发送到输出单元3(步 骤S8)。从而,图1中的机器翻译系统能输出正确的翻译结果。通过与上 述相同的方式,在图2的表格中第2列第2行的单元格中的日文词语"月"被翻译为"Moon"。也就是说,在同一行中出现但具有不同的 含意的相同词语可以通过参考每一列中的每个词语被正确地翻译为 对应于各自的含意的不同词语。此外,位于图2的表格的第5行第3 列的曰文词语"中国"很难被正确地翻译,它意味着包括中国在内的 不同地区。但是,在图1的机器翻译系统中,通过参考图2表格的 第3列中的、其中包括日文词语"中国"本身的那些词语,日文词语"中国"能被正确地翻译为"Chugoku"(日本的某一地区的名字) 而不是,例如,中国。当翻译对象具有列举结构或章/节结构时,即使在上述的处理流 程中也是足够的,章或节的标题被设置为包含在第一列单元格的n行 中的词语,并且执行与上述为表格结构的每个单元格执行的处理同样 的处理。关于其他类型的层次结构,通过适当修改上述处理也可实现 正确的翻译。如上所述,在实施例中,当具有例如表格结构(例如图2中所示 的)、列举结构、或者层次结构(例如章/节结构)等结构的文档数据 被输入到文档结构分析单元6时,单元6从文档数据中提取词语或句 子集合并将其存储到内部结构数据存储单元7 (参见图3)。当从词语或句子集合选择词语或句子并翻译时,内部结构解释数据库8从内部 结构数据存储单元7获取与所选词语或句子具有相同或等同属性的第一词语或句子集合(即,每个第一词语或句子集合包括按照某一规 则与所选词语或句子一 同排列的词语或句子作为其元素)。例如,如果选中的词语是位于图2的第2行第1列上的日文词语"月",那么 获取图2中第2行以及第1列的词语集合元素。之后,搜索将选中的 词语作为首词语的解释数据项,并选择包括与第一词语集合元素中的一个相同的词语集合元素(根据包含在解释数据项中的条件,所述一 个词语集合元素被认为是相同的)的解释数据项。基于所选的解释数 据项,翻译单元4翻译选中的词语。参照图5的流程图以及图6至8,以下将对另一个例子进行描述, 其中,将具有表格结构的英语文档数据翻译为日语。当如图6所示的具有表格结构的英文文档数据被作为原始文档 数据输入到输入单元1时,输入单元1将文档数据传输给控制器2。 在本例中,由于输入文档为一个表格,因此图6的整个表格被发送到 文档结构分析单元6(步骤S1)。在步骤S1的其他操作类似于将日文 翻译为英文的情况的步骤S1的那些操作。文档结构分析单元6分析所收到的表格结构数据。在本例中,确 定数据是一个如图6所示的表格,其具有3行,其中第1行中有6列, 第2行中有7列,第3行中有6列(步骤S2)。内部结构数据存储单元7存储由文档结构分析单元6所提取出的 表格数据。图7示出了存储实例,其中,数据被存储在一维表格中。 具体来说,从第1行第1列到第3行第6列的单元格中的数据项以一 维的方式被分隔符V'顺序连接。如果顺序遍历用7'分隔开的词 语,则可检测每一个词语所在的行和列。或者,对于例如在(niXn) 单元格中的词语或句子,也可将例如坐标(m, n)等的信息附加到 每个单元格的词语或句子上,这些带有信息的词语或句子被单独存 储。在歩骤S2的其他操作类似于将日文翻译为英文的情况中的步骤 S2的那些操作。控制器2从图6所示的表格的单元格中逐一地读取词语(或短 语),并将所读取的词语(或短语)连同例如每个表格的坐标信息一 起发送到翻译单元4(步骤S3)。在步骤S3的其他操作类似于将日文翻译为英文的情况中的步骤S3的那些操作。这里假定包含在图6表格中第1行第5列的单元格中的原始短语 是"Speaker Info"。在本例中,只有短语"Speaker Info"可以作为 原始短语发送。或者,可以对其进行语素分析,并发送短语及分析结 果。类似地,结构分析结果,含意分析结果,转换结果和/或生成结 果可以与短语一同被发送。此外,因为原始短语位于第1行和第5列, 数据(1, 5)被作为坐标数据发送。图8显示了存储于内部结构解释数据库8中的解释数据的实例。 该解释数据对应于属于任意类别的词语或短语集合中的每个词语或 短语,类别例如演讲信息,计算机相关的信息,用第一语言(本例中 是英语)书写的网站术语。解释数据用于将如上所述的词语或短语翻 译为属于第二语言(本例中是日语)中的对应类别的对应的词语或短 语。每个解释数据项都包含一个首词语,条款,译文,以及一个包含 首词语且属于任意类别的词语,短语或句子集合。在图8的例子中, 词语集合元素中包含的词语或短语由分隔符"/"连接。如果包含在 解释数据中的词语集合元素的词语或短语的出现顺序是预定的,则词 语或短语按照预定的顺序排列。其余事项类似于参照图4描述的那 些。在从翻译单元4接收到有关待翻译的原始文档数据的信息以及 坐标信息后,接着,基于接收到的坐标信息,内部结构解释数据库8 访问内部结构数据存储单元7以获取位于与当前处理的表格中的行 或列相同的行或列的词语集合元素(步骤S4)。在本例中,由于坐标 是(1, 5),那么从图7所示的数据获取对应于第1行的单元格的词 语集合元素,以及对应于第5列的单元格的词语集合元素,并存储在 内部结构数据存储单元7中。根据图7,第l行中的词语集合元素是 "Overview、 Agenda、 Registration、 Participants List 、 Speaker Info、 Fees Info"(词语集合元素A')。类似地,第5列的词语集合元素是 "SpeakerInfo、 Monitor、 FAQ"(词语集合元素B')。在从内部结构数据存储单元7获取词语集合元素A'和B'之后, 内部结构解释数据库8基于从翻译单元4获取的原始文档数据对解释数据进行搜索。例如,使用首词语"Speaker "作为关键字,搜索如 图8所示的解释数据(步骤S5)。这里假定以下的两个解释数据项被 获取:"Speaker Info ; 名词;講演者情報; Overview/Agenda/Registration/Participants List/Speaker Info/Fees Info" "Speaker ; 名 词 ; ^ 匕'一力 一 ; CPU/Chipset/Display/Drive/HDD/Memory/OS"这两个解释数据项分别包含词语集合元素"Overview、 Agenda、 Registration、 Participants List、 Speaker Info、 Fees Info"(词语集合元 素C')以及词语集合元素"CPU、 Chipset、 Display、 Drive、 HDD、 Memory、 OS "(词语集合元素D')。此时,在词语集合元素C' 和D',以及从原始文档数据中获取并存储于内部结构数据存储单元 7中的词语集合元素A'及B'之间进行匹配(步骤S6)。对于该匹配, 上述条件能被有效地使用。例如,为了确定包括在某一原始文档数据 中的词语集合元素是否与包括在某一解释数据中的词语集合元素相 同,可采用这样一个条件,艮卩,必须有k个或更多个包括在原始文档 数据的词语集合元素中的词语与解释数据的那些相同。或者,可采用 这样一个条件,即,在原始文档数据和解释数据之间,词语集合元素 的所有词语必须相同。类似地,可采用这样一个条件,艮P,在原始文 档数据和解释数据之间,只有一部分词语集合元素相同。此外,可采 用这样一个条件,即,在原始文档数据和解释数据之间,词语集合元 素的所有词语甚至这些词语的排列顺序都相同。对这些条件的适当使 用使得可以自由地控制匹配处理。在上述例子中,由于A'和C'两者间的匹配度高,因此内部结构 解释数据库8确定词语集合元素A'和C'相同。因此,选择前一个解 释数据项,即,"Speaker Info ;名词;講演者情報; Overview/Agenda/Registration/Participants List/Speaker Info/Fees Info "(步骤S7)。根据解释数据项这点是明显的,每个解释数据项 包含诸如"词性"和"译文词语"等翻译所需的信息。在选中的解释 数据项的例子中,日文词语"講演者情報(Kouensha—Jouhou)"被选中作为原始文档数据的表格结构的第1行第5列的单元格中 "SpeakerInfo"的译文,并被发送到翻译单元4。在从内部结构解释数据库8接收到解释结果后,接着,翻译单元 4基于所收到的解释结果进行翻译处理,并将翻译的结果,即译文词 语"講演者情報"发送到控制器2。在接收到翻译结果后,接着,控制器2将它发送到输出单元3(步 骤S8)。从而,图1的机器翻译系统就能输出正确的翻译结果。通过与上 述相同的方式,在图6的表格的第2行第6列的单元格中的词语 "Speaker"被翻译为日文词语"义匕'一力一(Supiikaa)"。也就是说, 在同一表格中存在的但具有不同的含意的同样的词语通过参考每一 列的每一个词语,可以被正确地译为对应于各自的含意的不同的词 语。此外,图6表格的第3行第6列的单元格中的词语"Contact", 在脱离上下文的情况下很难被翻译为正确的曰文词语,其也可通过参 考第3行的单元格中的词语被正确地翻译为对应的日文词语""問 l、合h甘(Otoiawase)"(而不是,例如,与前者不同的日文词语" 接触"(Sesshoku)")。如上所述,在实施例中,当具有诸如表格结构(例如图6中所示)、 列举结构、或者层次结构(例如章/^结构)这样的结构的文档数据, 被输入到文档结构分析单元6时,单元6从文档数据中提取出词语集 合元素并将其存储到内部结构数据存储单元7 (参见图7)。当从词语 集合元素选择出一个词语或短语并翻译时,内部结构解释数据库8从 内部数据存储单元7中获取和所选的词语或短语具有相同或等同属 性的第一词语集合元素(即,第一词语集合元素中的每一个包括词语 或短语作为其元素,这些词语和短语根据某一规则与所选词语或短语 一同排列)。例如,如果选中的短语是图6中第1行第5列的单元格 中的"Speaker Info",那么获取图6中第1行和第5列的词语集合元 素。之后,搜索将选中的词语作为首词语的解释数据项,并选择包括 与第一词语集合元素中的一个相同的词语集合元素(根据包含在解释数据项中的条件,所述一个词语集合元素被认为是相同的)的解释数据项。基于所选的解释数据项,翻译单元4翻译选中的词语。如上所述,在实施例中,具有诸如表格结构、列举结构或章/节 结构这样的结构的文档数据,能够根据结构中的属性、结构中的层次 和/或位置关系等被翻译。因此,能够得到更为准确和可靠的翻译结果。另外,如图5所示的图1中机器翻译系统所执行的操作可以存储 在一个记录介质上,作为指导计算机完成操作的程序。记录介质是例 如磁盘(软盘,硬盘,等),光盘(CD—ROM, DVD,等),或半导体存储器。其它的优点和修改对本领域技术人员来讲是明显的。因此,在更 广的方面,本发明并不局限于这里所显示并描述的具体细节和优选实 施例。因此,在不脱离由附加的权利要求及它们的等同内容定义的一 般发明概念的精神或范围的情况下,对其所作的各种修改都是可以的。
法律信息
- 2011-02-02
未缴年费专利权终止
IPC(主分类): G06F 17/28
专利号: ZL 200510119355.3
申请日: 2005.11.02
授权公告日: 2008.09.10
- 2008-09-10
- 2006-07-05
- 2006-05-10
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
1998-02-11
|
1997-07-02
| | |
2
| |
1998-02-18
|
1997-07-02
| | |
3
| |
1998-04-29
|
1997-07-02
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |