著录项信息
专利名称 | 交互式多语种语言的带注释显示方法及系统 |
申请号 | CN201110143989.8 | 申请日期 | 2011-05-20 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2012-07-04 | 公开/公告号 | CN102541821A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/21 | IPC分类号 | G;0;6;F;1;7;/;2;1;;;G;0;6;F;1;7;/;2;8查看分类表>
|
申请人 | 微软公司 | 申请人地址 | 美国华盛顿州
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 微软技术许可有限责任公司 | 当前权利人 | 微软技术许可有限责任公司 |
发明人 | 马特·斯科特;魏颢;徐维江;陈刚;周明;李志灏 |
代理机构 | 上海专利商标事务所有限公司 | 代理人 | 陆嘉 |
摘要
本发明揭示了一种交互式多语种语言的带注释显示方法,首先在通过用户界面以多种语言同时显示一句句子。将每一种语言句子进行分割,分割成该种语言的短语或者词组。在多种语言的短语或者词组之间建立关联,关联的原则是关联的短语或者词组在句子中表达相同的语义。对于以每一种语言显示的句子生成并显示一注释,注释同样被分割并且与短语或者词组相关联。接收选择指令选择以其中一种语言显示的该句子的其中一部分。由于是以短语或者词组作为处理单元,查找选择指令选择的部分所属的短语或者词组,将该短语或者词组突出显示。在以其他语言显示的句子中、以及相应的注释中查找相关联的短语或者词组,对这些相关联的短语或者词组进行突出显示。
1.一种交互式多语种语言的带注释显示方法,其特征在于,包括:
通过用户界面以多种语言同时显示一句句子;
对以每一种语言显示的该句子进行分割,将句子分割成该种语言的短语或者词组;
在多种语言的短语或者词组之间建立关联,相关联的短语或者词组在句子中表达相同的语义,其中在多种语言的短语或者词组之间建立关联包括:建立关联数组,关联数组中保存短语或者词组的识别号,将各种语言中表达相同的语义短语或者词组的识别号在关联数组中进行关联;
对于以每一种语言显示的句子,生成并显示一注释,所述注释被按照所述短语或者词组分割并且与所述短语或者词组相关联;
接收选择指令,所述选择指令选择以其中一种语言显示的该句子的其中一部分;
查找所述选择指令选择的部分所属的短语或者词组,将该短语或者词组突出显示;
在以其他语言显示的句子中、以及相应的注释中查找相关联的短语或者词组,对这些相关联的短语或者词组进行突出显示。
2.如权利要求1所述的交互式多语种语言的带注释显示方法,其特征在于,通过用户界面以多种语言同时显示一句句子包括以中文和英语同时显示一句句子。
3.如权利要求2所述的交互式多语种语言的带注释显示方法,其特征在于,所述生成并显示一注释包括生成并显示与中文的句子对应的拼音序列。
4.如权利要求3所述的交互式多语种语言的带注释显示方法,其特征在于,对以每一种语言显示的该句子进行分割将句子分割成该种语言的短语或者词组包括:在每一个短语或者词组之间增加分隔符并且为每一个短语或者词组分配唯一的识别号。
5.如权利要求4所述的交互式多语种语言的带注释显示方法,其特征在于,各种语言中表达相同的语义短语或者词组的识别号在关联数组中被放置在同一列或者同一行。
6.如权利要求4所述的交互式多语种语言的带注释显示方法,其特征在于,注释被按照短语或者词组分割包括:根据中文的短语或者词组分割所述拼音序列形成拼音分段,在每一个拼音分段之间增加分隔符并且为每一个拼音分段分配唯一的识别号。
7.如权利要求6所述的交互式多语种语言的带注释显示方法,其特征在于,注释与短语或者词组相关联包括:将拼音分段的识别号与对应的中文短语或者词组的识别号在关联数组中进行关联。
8.如权利要求7所述的交互式多语种语言的带注释显示方法,其特征在于,注释与短语或者词组相关联包括:对应的拼音分段的识别号与中文短语或者词组的识别号在关联数组中被放置在同一列或者同一行。
9.一种交互式多语种语言的带注释显示系统,其特征在于,包括:
用户界面,用户界面以多种语言同时显示一句句子,用户界面还接收选择指令,选择指令选择以其中一种语言显示的该句子的其中一部分;
语句分段装置,对以每一种语言显示的该句子进行分割,将句子分割成该种语言的短语或者词组;
注释产生装置,连接到语句分段装置,对于以每一种语言显示的句子,生成并显示一注释,所述注释被按照所述短语或者词组分割;
关联装置,连接到语句分段装置和注释产生装置,在多种语言的短语或者词组之间建立关联,相关联的短语或者词组在句子中表达相同的语义,所述关联装置还将分割的注释与所述短语或者词组相关联,其中所述关联装置建立并维护关联数组,关联数组中保存短语或者词组的识别号,将各种语言中表达相同的语义短语或者词组的识别号在关联数组中进行关联;
显示装置,连接到所述用户界面、语句分段装置、注释产生装置和关联装置,显示装置查找选择指令选择的部分所属的短语或者词组,将该短语或者词组在用户界面上突出显示;显示装置进一步通过关联装置在以其他语言显示的句子中、以及相应的注释中查找相关联的短语或者词组,对这些相关联的短语或者词组在用户界面上突出显示。
10.如权利要求9所述的交互式多语种语言的带注释显示系统,其特征在于,所述用户界面以中文和英语同时显示一句句子。
11.如权利要求10所述的交互式多语种语言的带注释显示系统,其特征在于,所述注释产生装置包括拼音生成器,生成与中文的句子对应的拼音序列并在用户界面显示。
12.如权利要求11所述的交互式多语种语言的带注释显示系统,其特征在于,所述语句分段装置包括中文分段器和英语分段器,分别在每一个中文短语或者词组以及每一个英语短语或者词组之间增加分隔符,所述语句分段装置还包括识别号分配器,为每一个短语或者词组分配唯一的识别号。
13.如权利要求12所述的交互式多语种语言的带注释显示系统,其特征在于,所述关联装置将中文和英语中表达相同的语义短语或者词组的识别号在放置在关联数组中的同一列或者同一行。
14.如权利要求12所述的交互式多语种语言的带注释显示系统,其特征在于,所述注释产生装置包括拼音分段器,拼音分段器根据中文的短语或者词组将拼音序列分割成拼音分段,在每一个拼音分段之间增加分隔符并且为每一个拼音分段分配唯一的识别号。
15.如权利要求14所述的交互式多语种语言的带注释显示系统,其特征在于,所述关联装置将拼音分段的识别号与对应的中文短语或者词组的识别号在关联数组中进行关联。
16.如权利要求15所述的交互式多语种语言的带注释显示系统,其特征在于,所述关联装置将对应的拼音分段的识别号与中文短语或者词组的识别号在关联数组中被放置在同一列或者同一行。
17.一种交互式多语种语言的带注释显示方法,其特征在于,包括:
通过用户界面以中文和英语同时显示一句句子;
对中文句子和英语句子进行分割,将分割成中文短语或者词组、以及英语短语或者词组;
在中文短语或者词组,以及英语短语或者词组之间建立关联,相关联的中文短语或者词组以及英语短语或者词组表达相同的语义;
根据中文句子生成并显示一拼音序列,所述拼音序列按照中文短语或者词组分割形成拼音分段,将拼音分段与中文短语或者词组相关联;
接收用户的选择指令,所述选择指令选择以中文或者英语显示的该句子的其中一部分;
查找所述选择指令选择的部分所属的短语或者词组,将该短语或者词组突出显示;
在以另一种语言显示的句子中、以及拼音序列中查找相关联的短语或者词组、以及拼音分段,对这些相关联的短语或者词组、以及拼音分段进行突出显示;
其中在每一个中文短语或者词组、英语短语或者词组以及拼音分段之间增加分隔符并且为每一个中文短语或者词组、英语短语或者词组以及拼音分段分配唯一的识别号,建立关联数组并在关联数组中关联相关的中文短语或者词组、英语短语或者词组以及拼音分段的识别号。
交互式多语种语言的带注释显示方法及系统\n技术领域\n[0001] 本发明涉及计算机翻译技术,更具体地说,涉及一种交互式多语种语言的带注释显示方法及系统。\n背景技术\n[0002] 语言是人类交流的主要工具,全球化的进一步深入使得各种语言之间的交流日渐频繁。学习外国语言是一种新的潮流,在学习外国语言的过程中,必不可少的环节是将外国语言和自己的母语之间进行互相翻译,以便于了解外国语言的含义。\n[0003] 计算机翻译技术的出现使得这一工作变得方便,计算机利用其高速运行和巨大存储量的特性弥补了人脑在这些方面的不足,为学习外国语言提供了巨大的便利。\n发明内容\n[0004] 本发明旨在提出一种由计算机辅助学习外国语言的技术,通过显示带注释的内容来帮助用户理解和使用外国语言。\n[0005] 根据一个实施例,提出一种交互式多语种语言的带注释显示方法,首先在通过用户界面以多种语言同时显示一句句子。将每一种语言句子进行分割,分割成该种语言的短语或者词组。在多种语言的短语或者词组之间建立关联,关联的原则是关联的短语或者词组在句子中表达相同的语义。对于以每一种语言显示的句子生成并显示一注释,注释同样被分割并且与短语或者词组相关联。接收选择指令选择以其中一种语言显示的该句子的其中一部分。由于是以短语或者词组作为处理单元,查找选择指令选择的部分所属的短语或者词组,将该短语或者词组突出显示。在以其他语言显示的句子中、以及相应的注释中查找相关联的短语或者词组,对这些相关联的短语或者词组进行突出显示。\n[0006] 根据本发明的一实施例,提出一种交互式多语种语言的带注释显示系统,该系统包括用户界面、语句分段装置、注释产生装置、关联装置和显示装置。用户界面以多种语言同时显示一句句子,并且还接收选择指令择以其中一种语言显示的该句子的其中一部分。\n语句分段装置对以每一种语言显示的该句子进行分割,将句子分割成该种语言的短语或者词组。注释产生装置对于以每一种语言显示的句子生成并显示一注释,注释同样被按照短语或者词组分割。关联装置在多种语言的短语或者词组、以及注释之间建立关联,相关联的短语或者词组在句子中表达相同的语义。显示装置查找选择指令选择的部分所属的短语或者词组,将该短语或者词组在用户界面上突出显示,显示装置进一步通过关联装置在以其他语言显示的句子中、以及相应的注释中查找相关联的短语或者词组,对这些相关联的短语或者词组在用户界面上突出显示。\n[0007] 根据本发明的一实施例,揭示了一种交互式多语种语言的带注释显示方法,首先通过用户界面以中文和英语同时显示一句句子。对中文句子和英语句子进行分割,将分割成中文短语或者词组、以及英语短语或者词组。在中文短语或者词组,以及英语短语或者词组之间建立关联,相关联的中文短语或者词组以及英语短语或者词组表达相同的语义。根据中文句子生成并显示一拼音序列,拼音序列按照中文短语或者词组分割形成拼音分段,将拼音分段与中文短语或者词组相关联。接收用户的选择指令选择以中文或者英语显示的该句子的其中一部分。查找选择指令选择的部分所属的短语或者词组,将该短语或者词组突出显示。在以另一种语言显示的句子中、以及拼音序列中查找相关联的短语或者词组、以及拼音分段,对这些相关联的短语或者词组、以及拼音分段进行突出显示。\n附图说明\n[0008] 本发明的上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变得更加明显,在附图中,相同的附图标记始终表示相同的特征,其中:\n[0009] 图1揭示了根据本发明的一实施例的交互式多语种语言的带注释显示方法的流程\n图。\n[0010] 图2揭示了根据本发明的一实施例的交互式多语种语言的带注释显示系统的结构\n图。\n[0011] 图3揭示了根据本发明的另一实施例的交互式多语种语言的带注释显示方法的流\n程图。\n[0012] 图4揭示了根据本发明的一实施例的交互式多语种语言的带注释显示技术的一个\n显示界面。\n[0013] 图5揭示了本发明利用的多语种单词对齐的技术的示例性计算基础结构。\n[0014] 图6A-C揭示了本发明利用的单词对齐技术的单词对齐用户界面(UI)的示例性图\n示。\n[0015] 图7A-D是其他单词对齐UI的示例性图示,这些所示UI实现单词对齐技术的一些改进或者变化。\n[0016] 图8揭示了本发明利用的单词对齐技术的基础结构的数据流表示。\n[0017] 图9-12是实现单词对齐技术的示例性过程的流程图。\n具体实施方式\n[0018] 汉语拼音是中文重要组成部分,学会了汉语拼音就能够了解汉字的读音,所以,在进行中英文翻译的过程中同时提供中文的汉语拼音能够很大程度上帮母语非汉语的用户\n对中文的学习。提供拼音注音功能为学习汉语的外国用户量身打造,能更好地帮助汉语学习者对相关汉字拼音的掌握,并且大幅减少用户所花费的时间和精力。\n[0019] 参考图1所示,揭示了根据本发明的一实施例的交互式多语种语言的带注释显示\n方法100。\n[0020] 在步骤102,通过用户界面以多种语言同时显示一句句子。中文和英语是世界上使用人数最多,应用最广泛的两种语言,因此在一个实施例中,用户界面以中文和英语同时显示一句句子。参考图4所示,同时显示中文“今天天气很冷”和英语“It is very cold today”。\n[0021] 在步骤104,对以每一种语言显示的该句子进行分割,将句子分割成该种语言的短语或者词组。短语和词组是组成句子的主要成分,在学习语言的时候,对于短语和词组的学习也是十分重要的。在步骤104,对于中文和英语显示的句子,分别按照中文和英语的语法以及使用习惯将它们分割成中文短语或词组,以及英文短语或词组。并且,在每一个短语或者词组之间增加分隔符并且为每一个短语或者词组分配唯一的识别号。\n[0022] 继续以图4所示的例句“今天天气很冷”和“It is very cold today”为例进行说明。根据中文语法和使用习惯,中文语句“今天天气很冷”被分割为如下的短语和词组:“今天”、“天气”、“很”、“冷”。在每一个短语和词组之间增加分隔符:“{*#”和“$*}”,其中“{*#”表示短语或者词组的开始符,其中的“*”号代表分配给该短语或者词组的识别符。\n“$*}”表示短语或者词组的结束符,其中的“*”号代表分配给该短语或者词组的识别符。\n需要注意的是,为了对短语和词组进行有效的区分,分配给每一个短语或者词组的识别符必须是唯一的。比如,分配给中文短语或者词组的识别符可以使用字母c加上数字表示。于是,上述的中文语句“今天天气很冷”就被分割为如下的短语和词组并且使用下列的识别符加以表示:\n[0023] {c1#今天$c1}{c4#天气$c4}{c2#很$c2}{c3#冷$c3}\n[0024] 英语“It is very cold today”被分割为“it is”、“very”、“cold”、“today”。同样也被赋予分隔符与识别号,分隔符同样是“{*#”和“$*}”,识别号为字母e加上数字表示。\n于是,上述的英语语句“It is very cold today”就被分割为如下的短语和词组并且使用下列的识别符加以表示:\n[0025] {e5#it is$e5}{e2#very$e2}{e3#cold$e3}{e1#today$e1}\n[0026] 在步骤106,在多种语言的短语或者词组之间建立关联,相关联的短语或者词组在句子中表达相同的语义。在一个实施例中,建立关联通过建立关联数组来实现,关联数组中保存短语或者词组的识别号,将各种语言中表达相同的语义短语或者词组的识别号在关联数组中进行关联。步骤106还可以采用多语种的单词对准技术,该技术将在下面专门进行描述。由于本发明的方法只是对该技术加以利用,因此该技术不在此处进行说明。进行短语或者词组关联的原则是这些短语或者词组在不同的语言中具有相同的语义。继续以上述的例子进行说明:\n[0027] “今天”、“天气”、“很”、“冷”和“it is”、“very”、“cold”、“today”的语义关联关系如下:\n[0028] “今天”对应“today”;\n[0029] “天气”没有对应;\n[0030] “很”对应“very”;\n[0031] “冷”对应“cold”;\n[0032] “it is”没有对应。\n[0033] 建立上述的关联关系之后,通过一个关联数组对这些短语或者词组进行关联,关联数组保存这些短语或者词组的识别号。由于识别号都是唯一的,因此一个识别号对应一个短语或者词组,保存识别号有利于减小关联数组的尺寸。在一个实施例中,各种语言中表达相同的语义短语或者词组的识别号在关联数组中被放置在同一列或者同一行。\n[0034] 比如关联数组被设计如下:\n[0035]\n 1 2 3 4 5\n c c1 c2 c3 c4 N/A\n e e1 e2 e3 N/A e5\n[0036] 其中的c行保存中文短语或者词组的识别符,e行保存英语短语或者词组的识别\n符。而具有关联关系的中文短语或者词组以及英语短语或者词组被安排在同一列中。比如,第一列保存的是识别符c1和e1,分别对应“今天”和“today”。\n[0037] 在步骤108,对于以每一种语言显示的句子,生成并显示一注释,注释被按照短语或者词组分割并且与短语或者词组相关联。在一个实施例中,生成的注释是与中文的句子对应的拼音序列。继续参考图4所示,除了现实中文和英语的句子“今天天气很冷”和“It is very cold today”以外,还显示了中文句子“今天天气很冷”的拼音序列“jīn tiān tiān qìhěn lěng”。被按照短语或者词组分割。参考上述的中文短语及词组的分割“今天”、“天气”、“很”、“冷”,拼音序列被相应地分割为拼音分段“jīn tiān”、“tiān qì”、“hěn”、“lěng”。在每一个拼音分段之间增加分隔符并且为每一个拼音分段分配唯一的识别号。分隔符的形式也是“{*#”和“$*}”,识别号为字母p加上数字表示,此处,拼音分段的识别符中的数字应当与对应的中文短语或者词组中的识别符中的数字相同。即拼音序列“jīn tiāntiān qìhěn lěng”被分割为如下的拼音分段并且使用下列的识别符加以表示:\n[0038] {1#jīn tiān$1}{4#tiān qì$4}{2#hěn$2}{3#lěng$3}\n[0039] 拼音分段的识别号与对应的中文短语或者词组的识别号同样在关联数组中进行\n关联。由于拼音分段是来源于中文短语或者词组,因此拼音分段的识别号与中文短语或者词组的识别号在关联数组中被放置在同一列或者同一行。例如,在上述的关联数组中,增加一行p行:\n[0040]\n 1 2 3 4 5\n c c1 c2 c3 c4 N/A\n e e1 e2 e3 N/A e5\n p p1 p2 p3 p4 N/A\n[0041] 这样,第一列保存的是识别符c1、e1和p1,分别对应“今天”、“today”和“jīn tiān”。\n[0042] 在步骤110,接收选择指令,选择指令选择以其中一种语言显示的该句子的其中一部分。继续参考图4,在图4中,接收一个选择指令以选中中文语句中的“今天”。也可以选择英文语句中的部分,例如选择“very”。也有可能所选择的内容并不是分割好的短语或者词组,例如有可能仅仅选择了“今”或者“天”。\n[0043] 在步骤112,查找选择指令选择的部分所属的短语或者词组,将该短语或者词组突出显示。在本发明中,处理的最小单元是分割好的短语或者词组,而不是单独的字。因此,在步骤112会查找选择指令所选择的部分所属的短语或者词组。例如,无论用户选择的是\n“今”、“天”还是“今天”,在步骤112中都会被确定为是选择了短语“今天”。被选中的“今天”被突出显示,例如,采用高亮显示或者如图4所示的采用反色显示。\n[0044] 在步骤114,在以其他语言显示的句子中、以及相应的注释中查找相关联的短语或者词组,对这些相关联的短语或者词组进行突出显示。在步骤112中确定了被选择的是中文词组“今天”,然后查找关联数组,“今天”的识别符是c1,处于同一列中的识别符都是相关的。于是查找与c1处于同一列的另外两个识别符e1和p1,根据识别符找到对应的短语或者词组或者拼音分段,分别为“today”和“jīn tiān”。于是“today”和“jīn tiān”也被突出显示。\n[0045] 在图4所示的界面中,还包括一个语音播放按钮402。当用户按下语音播放按钮402时,可以听见所选中的短语或者词组,例如,所选中的中文短语是“今天”,用户按下语音播放按钮402则会依次听到计算机念出的中文“今天”、英语“today”和拼音“jīn tiān”。如果用户还没有选择任何的短语或者词组而直接按下语音播放按钮402,则会听到完整的句子“今天天气很冷”、“It is very cold today”和拼音序列“jīn tiān tiān qìhěn lěng”。播放的顺序可以和语种显示的顺序相一致,在此处是中文、英语、拼音,也可以调换次序。相应的,显示的次序也是可以调换的。\n[0046] 参考图2所示,本发明还揭示了一种交互式多语种语言的带注释显示系统200,用户界面202、语句分段装置204、注释产生装置206、关联装置208和显示装置210。\n[0047] 用户界面202以多种语言同时显示一句句子,用户界面202还接收选择指令,选择指令选择以其中一种语言显示的该句子的其中一部分。结合上述图4所示的实施例,用户界面202以中文和英语同时显示一句句子。\n[0048] 语句分段装置204对以每一种语言显示的该句子进行分割,将句子分割成该种语\n言的短语或者词组。语句分段装置204包括中文分段器240、英语分段器242和识别号分配器\n244。中文分段器240对中文语句进行分割,例如中文语句“今天天气很冷”被分割为:“今天”、“天气”、“很”、“冷”。英语分段器242对英语语句进行分割,例如英语语句“It is very cold today”被分割为“it is”、“very”、“cold”、“today”。中文分段器240和英语分段器242在每一个中文短语或者词组以及每一个英语短语或者词组之间增加分隔符,例如采用\n“{*#”和“$*}”。识别号分配器244为每一个短语或者词组分配唯一的识别号,分配给每一个短语或者词组的识别符是唯一的。语句分段装置204最终会将上述的中英文语句变成下述的序列:\n[0049] {c1#今天$c1}{c4#天气$c4}{c2#很$c2}{c3#冷$c3}\n[0050] {e5#it is$e5}{e2#very$e2}{e3#cold$e3}{e1#today$e1}\n[0051] 注释产生装置206连接到语句分段装置204,对于以每一种语言显示的句子,生成并显示一注释,注释被按照短语或者词组分割。注释产生装置206包括拼音生成器260和拼音分段器262。拼音生成器260生成并显示与中文的句子对应的拼音序列。比如,“今天天气很冷”的拼音序列“jīntiān tiān qìhěn lěng”。拼音分段器262根据中文的短语或者词组将拼音序列分割成拼音分段,在每一个拼音分段之间增加分隔符并且为每一个拼音分段分配唯一的识别号。比如,按照“今天天气很冷”的分割“今天”、“天气”、“很”、“冷”,拼音分段器262将拼音序列被相应地分割为拼音分段“jīn tiān”、“tiān qì”、“hěn”、“lěng”。加入分隔符“{*#”和“$*}”,注释产生装置206最终产生如下的序列:\n[0052] {1#jīn tiān$1}{4#tiān qì$4}{2#hěn$2}{3#lěng$3}\n[0053] 关联装置208连接到语句分段装置204和注释产生装置206,关联装置208在多种语言的短语或者词组之间建立关联,相关联的短语或者词组在句子中表达相同的语义,关联装置208还将分割的注释与短语或者词组相关联。关联装置208建立并维护关联数组,关联数组中保存短语或者词组的识别号,将各种语言中表达相同的语义短语或者词组的识别号在关联数组中进行关联。关联装置208将中文和英语中表达相同的语义短语或者词组的识别号在放置在关联数组中的同一列或者同一行,关联装置208还将拼音分段的识别号与对应的中文短语或者词组的识别号在关联数组中进行关联,对应的拼音分段的识别号与中文短语或者词组的识别号在关联数组中被放置在同一列或者同一行。\n[0054] 以图4所示的实施例为例,“今天”、“天气”、“很”、“冷”和“it is”、“very”、“cold”、“today”的语义关联关系如下:\n[0055] “今天”对应“today”;\n[0056] “天气”没有对应;\n[0057] “很”对应“very”;\n[0058] “冷”对应“cold”;\n[0059] “it is”没有对应。\n[0060] 拼音序列具有与中文短语或者词组一致的关联关系。\n[0061] 建立如下的关联数组:\n[0062]\n 1 2 3 4 5\n c c1 c2 c3 c4 N/A\n[0063]\n e e1 e2 e3 N/A e5\n p p1 p2 p3 p4 N/A\n[0064] 其中的c行保存中文短语或者词组的识别符,e行保存英语短语或者词组的识别\n符,p行保存拼音分段。而具有关联关系的中文短语或者词组、英语短语或者词组以及拼音分段被安排在同一列中。比如,第一列保存的是识别符c1、e1和p1,分别对应“今天”、“today”和“jīn tiān”。\n[0065] 显示装置210连接到用户界面202、语句分段装置204、注释产生装置206和关联装置208。显示装置210查找选择指令选择的部分所属的短语或者词组,将该短语或者词组在用户界面上突出显示;显示装置210进一步通过关联装置在以其他语言显示的句子中、以及相应的注释中查找相关联的短语或者词组,对这些相关联的短语或者词组在用户界面上突出显示。在本发明中,处理的最小单元是分割好的短语或者词组,而不是单独的字。因此,显示装置210会查找选择指令所选择的部分所属的短语或者词组。例如,无论用户选择的是“今”、“天”还是“今天”,在显示装置210中都会被确定为是选择了短语“今天”。被选中的“今天”被突出显示,例如,采用高亮显示或者如图4所示的采用反色显示。然后查找关联数组,“今天”的识别符是c1,处于同一列中的识别符都是相关的。于是查找与c1处于同一列的另外两个识别符e1和p1,根据识别符找到对应的短语或者词组或者拼音分段,分别为“today”和“jīn tiān”。于是“today”和“jīn tiān”也被突出显示。\n[0066] 在图4所示的界面中,还包括一个语音播放按钮402。当用户按下语音播放按钮402时,可以听见所选中的短语或者词组,例如,所选中的中文短语是“今天”,用户按下语音播放按钮402则会依次听到计算机念出的中文“今天”、英语“today”和拼音“jīn tiān”。如果用户还没有选择任何的短语或者词组而直接按下语音播放按钮402,则会听到完整的句子“今天天气很冷”、“It is very cold today”和拼音序列“jīn tiān tiān qìhěn lěng”。播放的顺序可以和语种显示的顺序相一致,在此处是中文、英语、拼音,也可以调换次序。相应的,显示的次序也是可以调换的。\n[0067] 如果从特定应用的角度出发,本发明也可以别视为是保护的如下的一种方法,参考图3所示,是一种交互式多语种语言的带注释显示方法300,包括:\n[0068] 在步骤302,通过用户界面以中文和英语同时显示一句句子。\n[0069] 在步骤304,对中文句子和英语句子进行分割,将分割成中文短语或者词组、以及英语短语或者词组。\n[0070] 在步骤306,在中文短语或者词组,以及英语短语或者词组之间建立关联,相关联的中文短语或者词组以及英语短语或者词组表达相同的语义。\n[0071] 在步骤308,根据中文句子生成并显示一拼音序列,拼音序列按照中文短语或者词组分割形成拼音分段,将拼音分段与中文短语或者词组相关联。包括在每一个中文短语或者词组、英语短语或者词组以及拼音分段之间增加分隔符并且为每一个中文短语或者词\n组、英语短语或者词组以及拼音分段分配唯一的识别号,建立关联数组并在关联数组中关联相关的中文短语或者词组、英语短语或者词组以及拼音分段的识别号。\n[0072] 在步骤310,接收用户的选择指令,选择指令选择以中文或者英语显示的该句子的其中一部分。\n[0073] 在步骤312,查找选择指令选择的部分所属的短语或者词组,将该短语或者词组突出显示。\n[0074] 在步骤314,在以另一种语言显示的句子中、以及拼音序列中查找相关联的短语或者词组、以及拼音分段,对这些相关联的短语或者词组、以及拼音分段进行突出显示。\n[0075] 该方法的具体细节可以参考图4以及上面结合图1和图2的描述。\n[0076] 多语种单词对齐技术介绍\n[0077] 作为本发明中所利用的一项技术,在此对多语种单词对齐进行简单的介绍。\n[0078] 此处所描述的是用于交互式地呈现多语种翻译的单词对齐并基于用户反馈来自\n动地自改进这些翻译的技术。单词对齐用户界面(UI)被用来例如帮助一个人学习一门新语言。该UI同时显示一对双语句子。每一句子都旨在在含义上与另一句子基本相同,但一句子是从另一句子翻译成另一种语言的。\n[0079] 该UI允许用户通过使用光标来与句子交互。当用户将光标悬停在一个句子中的一个单词的上方时,突出显示该单词及其在另一句子中的对应单词。这两个突出显示且对应的单词是彼此单词对齐的,因为这些单词是从一种语言翻译成另一种语言的。因此,用户可快速查看哪些单词彼此翻译,并因此能够更好地学习单词在另一种语言中的含义。\n[0080] 在一个或多个其他实现中,可采用另一类似的单词对齐UI来使假定懂多种语言的一个人针对不仅仅一对,而是希望针对许多更多双语句子对提供关于现有单词对齐的质量的反馈。此外,该UI可以向这个懂多种语言的人提供在一个或多个双语句子对之间重新对齐单词的机会。在这种情况下,这个懂多种语言的人使用该UI来选择所显示的双语句子对之间的优选对齐。\n[0081] 此外,基于以上所简述的用户反馈技术,此处所描述的又一些其他技术可特别是通过因特网和万维网(此处被称为“web规模”)来从大量懂多种语言的用户收集这样的用户反馈。有了这样的大规模用户反馈数据,可重新调整并由此改进现有单词对齐模型。重新调整过的模型将更好地反映人类感知到的单词含义的细微差别并且比雇用大量语言专家更\n经济。重新调整过的模型利用有时被称为“群众智慧”的概念。有了这些其他技术,能够在新的或现有双语句子对数据集上实现该重新调整过的模型以产生新的且自改进的多语种文\n本数据集。\n[0082] 除非另外指定或从上下文中显而易见,否则此处所使用的术语按在提交本文时的其平常含义和如本领域的普通技术人员所理解的那样来理解。在要求附加理解的地方,以下对术语的解释可能会有用。\n[0083] 双语句子对:用两种不同的自然语言来传达实质上相同的含义的两个句子。出于此处的描述目的,这两种语言分别被称为L1和L2,并且这两个句子被称为L1句子和L2句子。\n当然,这些句子中的每一个都可以是形成段落、文章、章节、书籍等的较大的其他句子集合的一部分。此处使用术语“双语”,因为它描述这对句子。当然,如果考虑不止两个句子并对其操作,则双语将被理解为意指“多语种”而“对”将会是大于两个的“集合”。\n[0084] 单词:单词一般被大多数说一语言的人理解。它是语言中独立的最小有界单元。单词通常包括一个或多个词素,词素是语言中的最小含义单元。因为将单词与句子中的其他单词分开在某些语言中可能是棘手的,所以此处假定单词对齐的句子必定明确地定义了单词边界。\n[0085] 短语:一起用作句子中的单个单元的不止一个单词的集合。短语中的单词在句子中通常是彼此相邻的,但并非始终如此。短语包括谚语、成语和多词名称。\n[0086] 单词对齐:由于双语句子对中的两个句子实质上意指相同的事物,因此直观上L1句子中的一单词很有可能对应于L2句子中的某一单词。L1单词和L2单词之间的这一对应关系被称为单词对齐链接或简称为“链接”。句子对中的所有链接的集合被称为句子对的单词对齐(或简称为对齐)。\n[0087] 如汉语的某些语言是基于字符或汉字的。这些字符在此处如单词那样对待。然而,不一定存在英语单词到汉字的一对一对应关系。实际上,一个或多个汉字可对应于诸如英语等其他语言中的一个或多个单词。\n[0088] 单词对齐计算系统:单词对齐计算系统包括被配置成描绘、展示、显示、呈现和/或改进关于一个或多个双语句子对数据集的单词对齐数据的一个或多个计算设备。单词对齐通过使用单词对齐模型来生成。\n[0089] 机器翻译:机器翻译将文本或语音从一种自然语言翻译成另一种自然语言。机器翻译可以是例如,基于规则的(例如,字典)、统计的、基于示例的、或其某种组合。对于此处所描述的所有翻译,至少部分地采用监督学习算法以生成单词对齐模型。\n[0090] 单词对齐模型:一般而言,单词对齐模型是从标示/训练数据中学习关于单词对齐的某物的监督学习算法/方法。稍后,使用该模型来将已定义的单词对齐(即,所分配的单词链接/标签)变成非标示句子对。\n[0091] 换言之,本领域的技术人员将会理解,单词对齐模型将每一个标示句子对视作一束特征。每一特征都具备特征权重。使用例如对数线性模型,将特征及其特征权重组合在一起以产生分数。该分数是单词对齐模型如何产生单词对齐链接的基础。单词对齐模型从训练数据中得知特征权重值。一旦知道特征权重值,该模型就可产生对于任何句子对的对齐链接。\n[0092] 训练数据集:用于训练单词对齐模型的一组数据。此处所描述的单词对齐模型基于某种机器学习并因此它使用训练数据集来学习如何产生单词对齐。该数据集中的每一训练数据都是用其单词对齐来注释的句子对。该训练数据集是标示数据集。\n[0093] 双语文本数据集:该双语文本数据集包括具有通过使用单词对齐模型来产生的单词对齐的大量句子对。双语文本数据集通常是非标示的。典型的双语文本数据集可包含例如五百万对句子或更多。\n[0094] 人类自然语言:人类自然语言通常是人类用来彼此交流的通过器官得出的语言。\n人类自然语言(或简称为自然语言)与如计算机编程语言等人工或构造语言形成对比。虽然英语和汉语是此处所讨论的语言的主要示例,但可使用能够特别是经由机器翻译来进行单词对齐的任何人类自然语言。\n[0095] 其他术语。在此使用词语“示例性的”意指用作例子、实例或例示。在此被描述为“示例性”的任何方面或设计并不一定被解释为比其他方面或设计优选或有利。相反,使用词语“示例性”旨在以具体的方式呈现各个概念。如本申请中所使用的,术语“或”意指包括性“或”而非互斥性“或”。即,除非另有指定或从上下文可以清楚,否则“X使用A或B”意指任何自然的包括性排列。即,如果X使用A;X使用B;或X使用A和B两者,则在任何以上情况下,都满足“X使用A或B”。另外,本申请中和所附权利要求书中所使用的冠词“一”和“一个”一般应被解释为是指“一个或多个”,除非另有指定或从上下文可以清楚指的是单数形式。\n[0096] 图5示出了可实现所述用于单词对齐描绘和改进的技术的示例性联网计算基础结\n构500。基础结构500可包括具有显示屏504的至少一个终端用户计算设备502,该显示屏504具有示例性单词对齐用户界面(UI)506。该UI 506包括如图所示地包含没有意义且无法理解的文本和符号的两个句子。然而,至少在该附图中,这两个句子旨在表示UI 506将显示的双语句子对的示例。\n[0097] 终端用户计算设备502通常是经由网络510连接到语言翻译和学习系统520的大量\n这样的设备中的一个。用户可操作计算设备502并且该用户可以是通常使用因特网、万维网(“web”)等的任何人。未全部示出地,计算设备502具有处理器、存储系统以及输入/输出子系统,诸如键盘、鼠标、监视器、扬声器等。终端用户计算设备502通常运行诸如web浏览器等一个或多个应用程序以查看示例性单词对齐UI 506并与其交互。\n[0098] 同时,网络510表示彼此互连并用作单个大型网络(例如,因特网、web或内联网)的多个不同类型的网络中的任一个或组合。实际上,网络110可包括基于布线的网络(例如,以太网、电缆、拨号电话电缆等)和/或无线网络(例如,局部无线网络集线器、无线热点、移动、蜂窝、卫星等)。\n[0099] 如图所示,语言翻译和学习系统520包括一个或多个处理器522、一个或多个存储系统524以及一个或多个存储器526。语言翻译和学习系统520包括后端子系统530,该后端子系统530具有各种组件,包括用户反馈收集器532、结构化数据汇编器534、重新对齐因素分解器(factorizer)536、训练数据更新器538、以及机器翻译学习器540。图1还示出系统\n520还包括前端子系统550。\n[0100] 一般而言,前端子系统550的目的是允许用户有效地查看单词对齐数据并与其交\n互以及提供收集用户反馈的机制。前端子系统550生成并提供单词对齐UI 506的用户交互式特征。更一般地,前端子系统550可以不直接呈现或显示,但可改为使得或帮助可视地呈现或显示诸如此处所描述的一个或多个单词对齐UI。\n[0101] 后端子系统530收集并处理由前端子系统550获取的数据。更具体地,用户反馈收集器532使用如506的UI来收集并存储来自如例如使用终端用户计算设备502的用户的反\n馈。用户反馈可包括例如,用户对双语句子对中的现有单词对齐的评级。用户反馈还可包括用户对这些单词的不同对齐的建议。\n[0102] 在收集用户反馈后,结构化数据汇编器534处理双语句子对的双语文本数据集中\n的记录。每一句子对都对照由用户反馈收集器532产生的数据结构来检查。\n[0103] 在用户执行对单词的重新对齐而非仅仅对现有对齐进行评级时,调用重新对齐因素分解器536来解释来自许多用户的该重新对齐并产生一组“经校正的”重新对齐。\n[0104] 训练数据更新器538对用户反馈评级和用户重新对齐进行因素分解以形成新训练\n数据集。\n[0105] 使用该新训练数据集,机器翻译学习器540运行学习算法以产生新的且可能改进\n的单词对齐模型。然后将该模型应用于现有或新的双语文本数据集。如果应用于现有数据集,则根据该新单词对齐模型来重新对齐现有句子对。现在使得已更新的或新的多语种文本数据集可获得以供前端子系统550用来向用户展示。\n[0106] 如图所示,前端和后端子系统(550和530)以及各组件是驻留在工作存储器526中\n且在需要时由处理器522执行的计算机可执行指令的软件模块。一般而言,计算机可执行指令是可以在一个或多个计算机、计算设备或计算机的处理器上执行的指令。虽然在此被示为模块,但这些子系统和组件可具体化为硬件、软件或其任意组合。同样,虽然在此被示为驻留在单个计算设备(即,语言翻译和学习系统520)上,但这些子系统和组件可分布在分布式系统或网络中的许多计算设备上。数据集和模型可存储在例如存储524中。\n[0107] 图6A-C示出了实质上相同的交互式单词对齐描绘用户界面(UI)的三个不同视图\n600、620和640。该交互式单词对齐描绘UI可由前端子系统550和/或作为602处的单词对齐描绘的一部分来生成。\n[0108] 该UI的每一视图都包括对应的双语句子对的同时呈现。该句子对包括UI视图600\n的句子602和604、UI视图620的句子622和624、以及UI视图640的句子642和644。每一对句子中的第一个列出的句子是英语并读作:“The sun was shining,the wind was blowing,the light and shadows were passing across the field,the birds were singing.”每一对句子中的第二个列出的句子(其在第一个句子下面列出)是第一个句子的中文翻译。\n[0109] 图6A示出了图形光标606悬停在英语句子602中的感兴趣单词608的上方的UI视图\n600。该动作有时被称为“鼠标悬停”或“置鼠标于上方(mouseover)”。这个不具有任何用户点击或附加动作的有些被动的悬停动作可在图形光标被置于定义的区域中时触发一事件。\n对于该实现,该定义的区域起码包括形成感兴趣单词608的字母的边界所定义的区域以及字母之间的空白。\n[0110] 光标606通常通过用户的诸如计算机鼠标等定点设备的对应移动来在该UI中游\n动。当然,鼠标只是可用于在该UI和整个显示屏中游动光标606的合适的定点设备的一个示例。其他示例包括(但不限于)通过用户操作跟踪球、触摸板、图形输入板、触摸屏、操纵杆、定点杆、光笔、眼睛跟踪、运动跟踪遥控器、键盘等来驱动的光标。光标606是用户可指示的位置指示符的示例。当然,可以在其他实现中采用用于可由用户指示的可移动的屏上位置指示的其他合适的选项。\n[0111] 响应于光标606悬停在感兴趣单词608上,UI突出显示该感兴趣的单词。如UI视图\n600所示,感兴趣单词608是“wind”并且该单词通过反向着色各字母及其直接背景来突出显示。响应于完全相同的鼠标悬停,该UI还以类似方式突出显示另一单词。然而,该另一单词是第二个非英语句子604的一部分。该单词此处被称为链接单词610,因为它经由相关联的单词对齐数据“链接”到感兴趣单词608。因此,链接单词610假定是该感兴趣单词的翻译(反之亦然)。\n[0112] 为简明起见,此处的讨论将感兴趣单词、链接单词和其他这样的单词仅仅作为一个单词来描述。然而,在该实现和其他实现中,可涉及被称为短语的多个单词。的确,如UI视图600所示,链接单词610实际上是包括两个相邻汉字的短语。\n[0113] 本段是对如图6A所示的单词对齐描绘UI的交互式动作的概述。只要用户(诸如图5的终端用户计算设备502的用户)移动她的鼠标以使得光标608移至感兴趣单词608“wind”的上方(或非常接近),就同时突出显示第一个句子602中的感兴趣单词608及其在第二个非英语句子中的单词对齐的且由此链接的单词610。这一突出显示以视觉匹配或对应的方式发生。同样,以相反的方式,当用户将光标606移离感兴趣单词608时,不再突出显示感兴趣单词608和链接单词610。\n[0114] 在屏幕上突出显示单词在此处意味着以使该单词从其他单词中突显出来的方式\n来显示该单词。例如,可通过反向着色单词的字母及其直接背景来突出显示该单词。当然,此处构想许多其他突出显示技术。例如,加粗、不同字体、文本大小、闪烁、不同颜色、间距、斜体、下划线等。\n[0115] 图6A还分别示出了句子602和604中的每一个中的两个其他单词612和614。这些单词中的每一个都以对应的方式(即,加粗)来强调。如此处所使用的,“强调”只是突出显示的另一单词。然而,强调单词将与被描述为“突出显示”的单词不同地突出显示。\n[0116] 如此处所示出的,这些强调单词612和614不是感兴趣单词或链接单词。然而,一个句子中的每一个强调单词都与另一句子中的强调单词单词对齐。\n[0117] 此处,强调单词是查询单词。假定,用户选择执行基于作为强调单词612的\n“shining”的搜索或对其经翻译的单词614的搜索。该搜索的结果包括此处由句子602和604来表示的双语句子对。存在许多为何可强调这些单词对齐的单词的其他原因。例如,因为即时翻译,上下文翻译以及因为结构理解。\n[0118] 即时翻译避免了单独的翻译查找。因此,该翻译更快且更方便。\n[0119] 在上下文翻译的情况下,经强调的单词是在句子的上下文中的彼此的翻译。与可返回一组各种各样的翻译的单独查找相比,这使得用户能够更快地理解。在这种情况下,上下文翻译缩小翻译范围,这有益于用户的理解和生产率,当一术语(诸如单词“make”)可具有非常大的可能翻译定义的集合时尤其如此。\n[0120] 在结构理解的情况下,经强调的单词展示句子翻译的结构。这有益于学习如何用外语来自己书写或表达。该结构指的是句子中的单词排序。这对于诸如汉语和英语等非拉丁语对特别有用,因为句子中的单词次序在各语言之间不一定是1:1映射。在这些情况下,在翻译英语和西班牙语时无法通用地将句子结构(或单词排序)假定为它可能的样子。例\n如,\n[0121] a.w1w2w3w4\n[0122] b.w2w4w1w3\n[0123] 其中句子“a”可以是英语而句子“b”可以是汉语。当用户将鼠标置于a中的第一个单词(w1)的上方时,他们可以在不同的位置看到b中的突出显示的单词。这指示该双语句子对中的结构差异。\n[0124] UI视图600还包括音频激活选择器616。当用户选择该选项时,她取决于其他选项和选择而听见许多事物中的一个。例如,她可以听见用她相关联的语言大声念出的一个或两个句子。每一句子中的单词可以与正在念的单词协同地突出显示。或者,当她将鼠标悬停在突出显示的单词对齐的单词中的每一个的上方时,她可以听见该单词。或者,在选择该选项的情况下,可以将语音识别用于用户可指示的位置指示符的功能。换言之,该UI可识别用户正在念哪一个单词,在一个句子中找到该单词,并且然后如同用户将鼠标悬停在该单词的上方那样继续并因此将该单词选为感兴趣的单词。\n[0125] 图6B示出了UI视图620,其像UI视图600那样具有英语句子622和624处的翻译成汉语的对应句子。光标626被示为悬停在汉语句子624中的感兴趣单词628的上方。鉴于此,与英语句子622中的单词对齐的英语单词“light”630(其是感兴趣的汉语单词628的链接单词)同时突出显示汉语感兴趣单词628。这些句子也具有查询单词632和634,以及音频激活选择器636。\n[0126] 图6C示出了UI视图640,其像UI视图600那样具有英语句子642和644处的翻译成汉语的对应句子。其光标646被示为悬停在英语句子642中的感兴趣单词648(“across”)的上方。\n[0127] 然而,与图6A和6B的描绘中所发生的不同,未响应于该悬停动作来突出显示单词。\n这是因为不存在与感兴趣单词648(“across”)相关联的单词对齐。在这种情况下,不存在链接单词,因此当然不存在突出显示的链接单词。也因为不存在单词对齐,所以也不突出显示感兴趣的单词。以此方式,用户快速知晓不存在关于感兴趣单词的单词对齐。这些句子也具有查询单词652和654,以及音频激活选择器656。\n[0128] 此外,使用如此处在UI视图640中示出的UI,用户可选择任何单词(例如,648处的“across”)并且该UI将基于该单词来发起附加动作。例如,可经由在线搜索引擎执行查询。\n该查询可以是例如为了获取单词定义的字典查询。\n[0129] 该UI视图640包括用户反馈评级工具658。有了该工具,用户可选择同时显示的双语句子对642和644的现有单词对齐的评级。该评级系统可具有若干等级并经由如658所示的滑动条来设置。或者,该评级系统可以是双等级系统。例如,朝上拇指代表好,朝下拇指代表坏,并且在用户不具有关于此的选项的情况下假定没有评级。\n[0130] 使用来自web规模的大量用户的反馈,“群众智慧”效果将帮助产生最佳地反映更准确的单词对齐的回答。\n[0131] 图7A-D示出了类似版本的交互式单词对齐改进用户界面(UI)的四个不同视图\n700、720、740和760。有了该UI,用户有机会重新分配双语句子对之间的单词对齐。该交互式单词对齐改进UI可由前端子系统550和/或作为802处的单词对齐描绘和804处的数据收集\n(稍后讨论)的一部分来生成。\n[0132] 该UI的每一视图都包括对应的双语句子对的同时呈现。该句子对包括UI视图700\n的句子702和704、UI视图720的句子722和724、UI视图740的句子742和744、UI视图760的句子762和764。每一对中的第一个列出的句子是英语并读作:“Thus,Einstein took the job in the Swiss Patent Officein 1902。每一对句子中的第二个列出的句子(其在第一个句子下面列出)是第一个句子的中文翻译。\n[0133] 图7A示出了具有用户重新对齐选项706的UI视图700。当用户选择该附加的用户重新对齐选项706时,向她呈现如UI视图720所示的UI。\n[0134] 图7B示出了UI视图720。该UI像UI视图700那样具有英语句子722以及在724处的翻译成汉语的实质上相同的句子。有了该UI,用户有机会重新分配双语句子对之间的单词对齐。的确,在UI视图720的顶部提供的指示726通过说“点击您希望对齐的英语单词”来指示该重新分配。也在此处示出但变灰示出的是后退-前进导航箭头728,供用户一作出该用户的单词对齐重新分配就能够在这些重新分配之间后退和前进。\n[0135] 图7C示出了UI视图740,其像目前所讨论的其他UI视图那样具有英语句子742和\n744处的翻译成汉语的实质上相同的句子。同样,像其他UI视图那样,该UI视图具有指示746和导航箭头748。一旦用户作出单词对齐重新分配,该用户就可使用导航箭头748来在这些重新分配之间向后和向前导航。\n[0136] 该UI视图740示出用户已经移动图形光标750并选择英语句子742中的感兴趣单词\n752(“job”)。该选择比如以上参考600和620所示的交互式单词对齐描绘UI描述的仅仅悬停更主动。通常,用户点击或按下某一键将导致该选择。一旦用户选择感兴趣单词752,该UI就突出显示该单词并且该单词保持突出显示。\n[0137] 图7D示出了UI视图760,它像其他UI视图那样具有实质上相同的两个双语句子对:\n762和764。同样,像其他UI视图那样,该UI视图具有指示766和导航箭头768。在该UI视图760中,已经突出显示英语句子762中的感兴趣单词770(“job”),因为在图7C中用户先前已经选择该单词。如图所示,用户使用图形光标772来选择汉语句子764中的链接单词774。\n[0138] 因此,通过这些动作,该用户已定义英语感兴趣单词770和汉语链接单词774之间的链接。此时,该用户可选择指示766中的超链接选项“继续”以便在这两个句子之间重新对齐更多单词。或者,该用户可选择超链接选项“提交数据”以完成重新对齐并发出数据以便在例如图5的语言翻译和学习系统520处进行处理。\n[0139] 图8是自改进单词对齐循环800的表示。虽然图5示出了示例性实现的物理基础结\n构,但图8示出了相同或相似的基础结构的数据流表示。按照该数据流,自改进单词对齐循环800描绘展示现有单词对齐数据,改进该数据并重新部署改进的单词对齐数据的循环过程。\n[0140] 在802,展示现有单词对齐数据。通常,一对双语句子经由如506所示的UI来同时呈现。这可由前端子系统550实现,该前端子系统550可向终端用户计算设备502发送指令和数据,该指令和数据使得该设备在显示屏504上产生UI 506。例如,可以在HTML网页环境的上下文中展示该单词对齐数据。\n[0141] 在804,收集并存储用户反馈数据。通常,该用户反馈数据经由UI收集并由例如用户反馈收集器532存储。一旦收集到用户反馈,就将其存储在已定义的单词对齐数据结构中以跟踪句子、用户、评级、重新对齐数据和任何其他有用元数据。\n[0142] 此处可采用的合适的单词对齐数据结构的示例包括以下字段:句子标识符、用户标识符、用户反馈评级、用户单词重新对齐以及用户专用值。句子标识符字段标识双语句子对中的至少一个句子。用户标识符字段标识提供反馈的用户。用户反馈评级字段指示关于双语句子对之间的现有单词对齐的质量的用户选项。用户单词重新对齐字段是句子对的一组用户反馈单词对齐链接。每一新的重新分配都具有元数据,诸如用户重新分配单词对齐所花费的时间的度量。该时间度量可在稍后置信度因素计算时使用。例如,如果太快作出对齐,则对链接准确度的置信度较低。用户专用置信值与用户相关联。这可以是帮助校准其他用户贡献之间的贡献的总体应用程序专用用户置信度值。\n[0143] 在806,在收集用户反馈后,将该用户反馈汇编到数据结构中。这可由例如结构化数据汇编器534来实现。每一句子对都对照在反馈收集时产生的数据结构来检查。可生成以下对应于数据集中的每一句子对的记录:\n[0144] ●给予其现有对齐多少肯定(例如,“朝上拇指”或高于固定量的评级)反馈;\n[0145] ●给予其现有对齐多少否定(例如,“朝下拇指”或低于固定量的评级)反馈。\n[0146] 然后,在806,计算以下对应于句子对中指定的第一个(“L1”)句子中的每一个单词的记录:现有对齐模型所给予该单词的链接以及每一个不同的用户给予该单词的链接(即,重新对齐)。\n[0147] 在808,对用户重新对齐进行因素分解。这可由例如重新对齐因素分解器536来实现。在用户执行重新对齐而非仅仅对现有对齐进行评级时,产生一组“经校正的”重新对齐。\n该因素分解可以按以下方式计算:\n[0148] 1)假设L1句子包含m个单词(即,该句子具有“w1(1)w1(2)w1(m)”形式)并且假设L2句子包含n个单词(即,该句子具有“w2(1)w2(2)w2(n)”形式)。\n[0149] 2)假设存在已将反馈给予该句子对(包含L1和L2)的x个用户(被称为u1,u2,,ux)。\n则存在x+1个投票者。第一票是由现有单词对齐模型(被称为‘用户0或u0)投出的,而其他票是由人类用户投出的。\n[0150] 3)对于每一个L1单词w1(i),1≤i≤m,存在n+1个投票候选,即{w2(0),w2(1),w2(2),,w2(n)}。候选‘w2(0)’意味着w1(i)不与L2句子中的任何单词对齐,并且其他候选w2(j)(1≤j≤n)中的每一个候选都意味着w1(i)与L2句子中的特定单词w2(j)对齐。\n[0151] 4)如果用户未给予w1(i)的链接任何校正,则假设她同意现有链接并因此她的投\n票与现有单词对齐模型的投票相同。\n[0152] 5)来自用户uk(1≤k≤x)的投票被分配以权重Wk。Wk通过组合因素列表来确定。这些因素被分成两组:\n[0153] (i)第一组因素有关对用户的置信度。一个因素是基于用户先前记录的用户可信\n性;另一因素是用户在作出她的校正之前所花费的时间。\n[0154] (ii)第二组因素有关对用户投其票的链接的置信度。这些因素可以是(a)链接是\n否得到字典支持、(b)链接是否得到对双语文本数据集的统计分析的支持、(c)链接是够在给定其上下文的情况下看上去合理。\n[0155] 6)对于每一个w1(i),每一个候选w2(j)被分配一分数:\n[0156] 等式(1)\n[0157] 其中如果用户k投票给候选w2(j),则δ(j,k)被定义为1,否则为0。取得分最高的候选作为w1(i)的新链接。由此可获取对于整个L1句子的新对齐。\n[0158] 在810,处理现有单词对齐的评级和所建议的新单词重新对齐并将该评级和重新\n对齐插入到新训练数据集中。这可由例如训练数据更新器538来实现。\n[0159] 对于被给予用户反馈评级的句子对,将这些句子对分成两组:保留组和要修订组。\n保留组将会是新训练数据集的一部分并且包括其现有单词对齐已被给予许多肯定反馈的\n句子对。要修订组将不会是新训练数据集的一部分并且包括其现有单词对齐已被给予许多否定反馈的句子对。该要重新对齐组可以在稍后由一组人类语言专家来检查。当然,在其他实现中可采用其他统计计算和阈值。\n[0160] 对于经重新对齐的句子对,在808基于因素分解用户重新对齐的结果来计算经校\n正的单词重新对齐。该经校正的单词重新对齐的句子对被包括为新训练数据集的一部分。\n[0161] 使用从用户反馈收集到的数据来产生新的标示数据集以便训练。基于该新训练数据集,可训练新的单词对齐模型。非标示数据集是多语种文本数据集的示例的字汇中的所有句子对。将该新的单词对齐模型应用于非标示数据集以产生新的对齐链接。\n[0162] 在812,在已更新的训练数据集上运行学习算法/方法以产生新的且可能改进的单词对齐模型。这可由例如机器翻译学习器540来实现。\n[0163] 在814,消费并部署改进的单词对齐模型以供用户使用。这意味着将新模型应用于现有数据集或新的多语种文本数据集。如果应用于现有数据集,则根据该改进的单词对齐模型来重新对齐现有句子对。现在使得已更新的或新的多语种文本数据集可获得以供前端子系统550用来向用户展示。\n[0164] 最后,循环返回到802,在那里经由UI向用户展示基于改进的单词对齐模型的已更新或新的多语种文本数据集以使得用户能够例如学习语言或提供反馈并改进当前单词对\n齐。\n[0165] 图9-12是示出实现此处所描述的用于单词对齐描绘和/或改进的技术的示例性过\n程900、1000、1100和1200的流程图。图6A-C和7A-D所示的UI由示例性过程900、1000和1100生成和/或利用。\n[0166] 这些过程中的每一个都被示为逻辑流程图中框的集合,该框的集合表示可用硬\n件、软件或其组合来实现的操作序列。在软件的上下文中,框表示存储在一个或多个计算机可读存储介质上的计算机指令,这些指令在由诸如计算机的一个或多个处理器执行时执行既定操作。注意,描述过程的次序并不旨在解释为限制,并且任何数目的所述过程框可以按任何次序组合以实现本过程或替换过程。另外,可从过程中删除各个框,而不背离此处所述的主题的精神和范围。\n[0167] 图9示出了单词对齐描绘过程900。该过程至少部分地由单词对齐计算系统来执\n行。该计算系统包括配置成描绘、展示、显示、呈现和/或改进一个或多个双语句子对的单词对齐的一个或多个计算设备。该单词对齐计算系统包括例如,计算设备502、语言翻译和学习系统520或其某种组合。如此处所描述地配置的单词对齐计算系统当作特定机器或装置。\n[0168] 如此处所示出的,过程900开始于操作902,在那里单词对齐计算系统获取至少一个双语句子对。\n[0169] 在操作904,单词对齐计算系统在输出显示器(如图5所示的显示屏504)上经由UI\n来同时显示双语句子对中的每一个句子。可强调每一句子中的一个或多个单词对齐的单词或短语。这种情况的示例在图6A中看到,在那里连同作为句子604中的单词614的单词对齐同盟(confederate)单词或短语一起强调句子602中的单词“shining”612。该强调传达特定含义,例如,图6A中的单词612和614是查询单词。这两个单词中的一个已经用于查找图6A所示的特定句子对。\n[0170] 在操作906,单词对齐计算系统等待用户产生指示该用户已选择一句子中的感兴\n趣的单词或短语的输入事件。该输入事件可以是例如,鼠标光标悬停在一单词或短语的上方或靠近该单词或短语。该感兴趣的单词可以在任一句子中而不管句子的语言或次序。为了清楚起见,具有感兴趣单词的句子此处被称为“第一”句子。\n[0171] 在操作908,一旦选择了感兴趣单词,该系统就确定另一(即,第二)句子中是否存在与该感兴趣单词对齐的对应单词。如果为否,则该过程返回到操作906以等待另一感兴趣单词被选中。如果为是,则该过程继续至下一操作。\n[0172] 在操作910,该系统定位另一(即,第二)句子中的与感兴趣单词对齐的特定的对应单词。该另一句子中的特定的对应单词被称为链接单词。\n[0173] 在操作912,该系统同时突出显示两个单词。换言之,该系统在屏幕上同时突出显示感兴趣单词和链接单词。\n[0174] 或者,操作906-912中的部分或全部可被描述为包括确定用户可指示的位置指示\n符是否接近双语句子对的一个句子中的感兴趣的单词或短语。当用户可指示的位置指示符接近感兴趣的单词或短语时,该系统在另一句子对中查找对应于该感兴趣的单词或短语的链接单词或短语。该链接单词或短语基于双语句子对之间的预定单词对齐来查找。然后,该系统在显示器上经由UI来同时突出显示感兴趣的单词或短语和链接单词或短语,并且在仍旧经由该UI同时显示双语句子对中的每一个句子的同时这样做。\n[0175] 在操作914,该系统从用户接收指示关于同时显示的双语句子对的现有单词对齐\n的质量的用户评级或意见的输入。\n[0176] 图10示出了单词对齐描绘的另一过程1000。该过程至少部分地由单词对齐计算系统来执行。过程1000采用如过程900所使用的单词对齐计算系统。同样,过程1000可以与过程900同时或分开采用。\n[0177] 如此处所示出的,过程1000开始于操作1002,在那里单词对齐计算系统获取至少一个双语句子对。在操作1004,单词对齐计算系统在输出显示器(如图5所示的显示屏504)上经由UI来同时显示双语句子对中的每一个句子。\n[0178] 在操作1006,单词对齐计算系统等待用户产生指示该用户已选择一句子中的感兴趣的单词或短语的输入事件。该输入事件可以是例如,鼠标光标悬停在一单词或短语的上方或靠近该单词或短语。该输入事件可以是诸如点击(左击或右击)、热键或者通过在所需文本上方拖拽光标的文本选择等更主动的用户选择的结果。此处的拖拽包括移动光标同时按下按钮(通常在鼠标本身上)。\n[0179] 在操作1008,一旦选择了感兴趣单词,该系统就基于该感兴趣单词或短语来执行查询。该查询可经由如微软公司的BINGTM品牌的搜索引擎等在线搜索引擎。或者,该查询可以是针对字典、多语种字典或翻译者。或者,可对其中描述或详述单词含义的数据库作出该查询。\n[0180] 与过程900组合的其他实现可查询链接单词或短语和/或感兴趣的单词或短语,而不是仅仅基于感兴趣的单词来搜索。因此,在这种情况下,响应于选择英语单词,用户可获取双语句子对中的俄语句子中的该英语单词的单词对齐的俄语单词的英语定义。\n[0181] 在操作1010,该系统呈现查询结果。\n[0182] 图11示出了用于帮助改进单词对齐的过程1100。该过程至少部分地由单词对齐计算系统来执行。过程1100采用如过程900和1000的单词对齐计算系统。同样,过程1100可连同此处所描述的其他过程一起采用或分开采用。\n[0183] 如此处所示出的,过程1100开始于操作1102,在那里单词对齐计算系统获取至少一个双语句子对。在操作1104,单词对齐计算系统在输出显示器(如图5所示的显示屏504)上经由UI来同时显示双语句子对中的每一个句子。\n[0184] 在操作1106,单词对齐计算系统等待用户产生指示该用户已选择一句子中的第一单词或短语的输入事件。该第一单词或短语可以在任一句子中而不管句子的语言或次序。\n为了清楚起见,具有该第一单词或短语的句子此处被称为“第一”句子。\n[0185] 在操作1108,一旦选择了第一单词或短语,该系统就突出显示该第一单词或短语。\n[0186] 接着,在操作1110,该系统等待用户产生指示该用户已选择两个句子中的另一句子的第二单词或短语的另一输入事件。为了清楚起见,具有该第二单词或短语的句子此处被称为“第二”句子。\n[0187] 一旦用户选择了第一和第二单词或短语,她就指示应对齐这两个单词或短语。这在此被称为单词重新对齐或用户反馈单词重新对齐。\n[0188] 在操作1112,一旦选择了第二单词或短语,该系统就突出显示该第二单词或短语。\n[0189] 在操作1114,该系统存储用户反馈单词重新对齐。\n[0190] 另外,在操作1116,该系统与执行该用户反馈单词重新对齐的用户相关联的其他特性。例如,其他特性可包括单词选择之间的时间度量,该时间度量可以是该用户是否认真地考虑过单词的上下文含义的指示符。\n[0191] 图12示出了用于帮助改进单词对齐的过程1200。该过程至少部分地由单词对齐计算系统来执行。过程1200采用如已经描述的其他过程的单词对齐计算系统。同样,过程1200可连同此处所描述的其他过程一起采用或分开采用。\n[0192] 如此处所示出的,过程1200开始于操作1202,在那里系统获取关于用户感知到的双语句子对数据集的现有单词对齐的质量的用户反馈评级。\n[0193] 在操作1204,该系统基于用户反馈评级来选择一组保留的句子对。这还可被描述为该系统将双语句子对数据集分成至少两组。保留组包括满足或超过基于所获取的用户反馈评级的定义质量标准的句子对。要修订组包括具有低于基于所获取的用户反馈评级的定义质量标准的现有单词对齐的句子对。\n[0194] 所定义的质量阈值可以自动设置(经由统计分析)或由人类操作者手动设置。一旦设置,每一句子对就具有满足或超过阈值、当然或者低于该阈值的总评级。每一句子对的总评级可基于诸如特定对的单词对齐的用户反馈评级的中值或均值等多个因素来计算。也可使用其他统计因素,包括特定评级的量(例如,至少900个“好”评级)或基于与特定用户相关联的置信度的权重。\n[0195] 在操作1206,单词对齐计算系统获取关于数据集中的许多句子对的用户反馈单词重新对齐数据。\n[0196] 该用户反馈单词重新对齐数据和用户反馈评级可通过因特网从大量懂多种语言\n的用户处获取。由于可能的全球规模,因此可以从数千、数十万以及甚至可能数百万用户处接收反馈。\n[0197] 在操作1208,基于所获取的经重新对齐的句子对的用户反馈单词重新对齐,该系统计算经重新对齐的句子对的经校正的单词重新对齐。这些句子对可被称为“经校正”组或“经重新对齐”组。\n[0198] 作为该操作的一部分,该系统可至少基于与用户相关联的因素来计算用户专用置信度值。该系统然后对所考虑的组中的每一个用户重复该计算。每一链接都基于计算出的许多用户中的每一个用户的用户专用置信度值来加权。然后该系统基于经加权的链接来选择经重新对齐的句子对的经校正的单词重新对齐。\n[0199] 接着,在操作1210,该系统基于该组保留的句子对和经重新对齐的句子对来生成新的且可能改进的单词对齐模型。\n[0200] 在操作1212,该系统将该新的单词重新对齐模型应用于同一或另一多语种文本数据集。这是改进的多语种文本数据集。\n[0201] 在操作1214,该系统展示来自改进的多语种文本数据集的句子对。这将非常像此处关于过程900、1000和1100所讨论的那样完成。\n[0202] 上述实施例是提供给熟悉本领域内的人员来实现或使用本发明的,熟悉本领域的人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。
法律信息
- 2016-12-14
- 2015-08-05
专利申请权的转移
登记生效日: 2015.07.17
申请人由微软公司变更为微软技术许可有限责任公司
地址由美国华盛顿州变更为美国华盛顿州
- 2014-02-12
实质审查的生效
IPC(主分类): G06F 17/21
专利申请号: 201110143989.8
申请日: 2011.05.20
- 2012-07-04
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-02-06
|
2006-08-02
| | |
2
| |
2008-09-24
|
2007-03-20
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |