著录项信息
专利名称 | 文字转换方法与系统 |
申请号 | CN201010576958.7 | 申请日期 | 2010-12-02 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2012-06-06 | 公开/公告号 | CN102486770A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/28 | IPC分类号 | G06F17/28查看分类表>
|
申请人 | 财团法人资讯工业策进会 | 申请人地址 | 中国台湾台北市和平东路二段106号***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 财团法人资讯工业策进会 | 当前权利人 | 财团法人资讯工业策进会 |
发明人 | 杨秉哲;吴世弘;谷圳;林倩慧;卢家庆;谢文泰 |
代理机构 | 北京同立钧成知识产权代理有限公司 | 代理人 | 刘芳 |
摘要
本发明提供一种文字转换方法与系统。此系统包括储存单元、分类单元、和转换单元,储存单元储存来源语言与目标语言的字词对应关系的字词对照表;分类单元对符合来源语言的文字段落做断词处理得到多个断词结果,比对断词结果与字词对照表以判断文字段落中各来源语言字词属于第一或第二种类,第一种类的来源语言字词对应一目标语言字词,第二种类的来源语言字词对应多候选目标语言字词;转换单元依照字词对照表将第一种类的来源语言字词转换成目标语言字词,对第二种类的来源语言字词则根据对应的各候选目标语言字词及其与前后字词所组成的数个关联字词的共同出现关联性,从候选目标语言字词择一作为目标语言字词。
1.一种文字转换方法,用以将符合一来源语言的一文字段落转换为一目标语言,其中该文字段落包括多个来源语言字词,其特征在于,该方法包括下面步骤:
提供一字词对照表,该字词对照表记录该来源语言与该目标语言的字词对应关系;
对该文字段落进行一断词处理而得到多个断词结果;
比对该些断词结果与该字词对照表,以判断各该些来源语言字词属于一第一种类和一第二种类二者其中之一,其中属于该第一种类的来源语言字词仅对应单一目标语言字词,而属于该第二种类的来源语言字词对应复数个候选目标语言字词;
依照该字词对照表所记录的字词对应关系,在该文字段落中将属于该第一种类的来源语言字词转换成对应的该目标语言字词;
将属于该第二种类的来源语言字词,利用一语言模型分别计算各该些候选目标语言字词及其与该文字段落至少一前后字词所组成的复数个关联字词的共同出现关联性;
从该些候选目标语言字词中,选择复数个较高共同出现关联性的候选目标语言字词,其中该些较高共同出现关联性的候选目标语言字词所对应的共同出现关联性大于一第一门槛值;以及
利用支持该目标语言与一参考语言的一字典,分别将各该些较高共同出现关联性的候选目标语言字词的每一字,翻译为一对应参考语言字,并从该字典及各该对应参考语言字,判断各该些较高共同出现关联性的候选目标语言字词的各该对应参考语言字之间的关联性,以选择对应参考语言字的关联性最高的候选目标语言字词来作为该目标语言字词。
2.根据权利要求1所述的文字转换方法,其特征在于,其中判断各该对应参考语言字之间的关联性的步骤包括:
根据各该对应参考语言字在该字典中在复数个字义解释的一出现频率,以决定各该对应参考语言字之间的关联性。
3.根据权利要求1所述的文字转换方法,其特征在于,更包括下面步骤:
通过训练至少一语料库以建立该语言模型。
4.根据权利要求1所述的文字转换方法,其特征在于,更包括下面步骤:
通过网络探勘以取得一来源语言数据集与一目标语言数据集;
从该来源语言数据集与该目标语言数据集分别找出相互对应的一来源语言语料与一目标语言语料;
利用该来源语言语料与该目标语言语料产生一平行语料库;以及
依据该平行语料库扩充该字词对照表的内容。
5.一种文字转换系统,用以将符合一来源语言的一文字段落转换为一目标语言,其中该文字段落包括多个来源语言字词,其特征在于,该系统包括:
一储存单元,用以储存一字词对照表,该字词对照表记录该来源语言与该目标语言的字词对应关系;
一分类单元,耦接该储存单元,对该文字段落进行一断词处理而得到多个断词结果,并比对该些断词结果与该字词对照表,以判断各该些来源语言字词属于一第一种类和一第二种类二者其中之一,其中属于该第一种类的来源语言字词仅对应单一目标语言字词,而属于该第二种类的来源语言字词对应复数个候选目标语言字词;
一转换单元,耦接该储存单元与该分类单元,依照该字词对照表所记录的字词对应关系,在该文字段落中将属于该第一种类的来源语言字词转换成对应的该目标语言字词,并将属于该第二种类的来源语言字词,利用一语言模型分别计算各该些候选目标语言字词及其与该文字段落至少一前后字词所组成的复数个关联字词的共同出现关联性,从该些候选目标语言字词中选择复数个较高共同出现关联性的候选目标语言字词,其中该些较高共同出现关联性的候选目标语言字词所对应的共同出现关联性大于一第一门槛值,以及利用支持该目标语言与一参考语言的一字典,分别将各该些较高共同出现关联性的候选目标语言字词的每一字,翻译为一对应参考语言字,并从该字典及各该对应参考语言字,判断各该些较高共同出现关联性的候选目标语言字词的各该对应参考语言字之间的关联性,以选择对应参考语言字的关联性最高的候选目标语言字词来作为该目标语言字词;以及一输出单元,耦接该转换单元,用以输出已转换成该目标语言的该文字段落。
6.根据权利要求5所述的文字转换系统,其特征在于,其中,该系统更包含:
一输入单元,耦接该储存单元,以接收符合该来源语言的该文字段落。
7.根据权利要求5所述的文字转换系统,其特征在于,其中该转换单元更包括用以根据各该对应参考语言字在该字典中在复数个字义解释的一出现频率,以决定各该对应参考语言字之间的关联性。
8.根据权利要求5所述的文字转换系统,其特征在于,其中该储存单元更包括储存有至少一语料库,且该文字转换系统更包括有一语言模型建立单元,耦接该储存单元,用以通过训练该至少一语料库以建立该语言模型。
9.根据权利要求5所述的文字转换系统,其特征在于,更包括:
一双语字词对照表更新单元,耦接该储存单元,通过网络探勘以取得一来源语言数据集与一目标语言数据集;从该来源语言数据集与该目标语言数据集分别找出相互对应的一来源语言语料与一目标语言语料;利用该来源语言语料与该目标语言语料产生一平行语料库;以及,依据该平行语料库扩充该字词对照表的内容。
10.一种文字转换方法,用以进行一来源语言及一目标语言的文字转换,其特征在于,该方法包括:
从符合该来源语言的一文字段落中取得一来源语言字词;
提供一字词对照表,该字词对照表记录该来源语言与该目标语言的字词对应关系,且该来源语言字词对应至少一个候选目标语言字词;
利用一语言模型分别计算各该至少一候选目标语言字词及其与该文字段落中至少一前后字词所组成的复数个关联字词,分别在复数个语言数据源的共同出现关联性;
从该些候选目标语言字词中,选择复数个较高共同出现关联性的候选目标语言字词,其中该些较高共同出现关联性的候选目标语言字词所对应的共同出现关联性大于一第一门槛值;
利用支持该目标语言与一参考语言的一字典,分别将各该些较高共同出现关联性的候选目标语言字词的每一字,翻译为一对应参考语言字,并从该字典及各该对应参考语言字;
判断各该些较高共同出现关联性的候选目标语言字词的各该对应参考语言字之间的关联性,以选择对应参考语言字的关联性最高的候选目标语言字词来作为该目标语言字词;以及
在该文字段落中以该目标语言字词转换该来源语言字词。
11.根据权利要求10所述的文字转换方法,其特征在于,其中,该些语言数据源包括网页、网络文章、以及语言数据库。
12.一种文字转换系统,用以进行一来源语言及一目标语言的文字转换,其特征在于,该系统包括:
一输入单元,从符合该来源语言的一文字段落中取得一来源语言字词;
一储存单元,耦接该输入单元,提供一字词对照表,该字词对照表记录该来源语言与该目标语言的字词对应关系,且该来源语言字词对应至少一个候选目标语言字词;
一转换单元,耦接该输入单元和该储存单元,利用一语言模型分别计算各该至少一候选目标语言字词及其与该文字段落中至少一前后字词所组成的复数个关联字词,分别在复数个语言数据源的共同出现关联性,从该些候选目标语言字词中,选择复数个较高共同出现关联性的候选目标语言字词,其中该些较高共同出现关联性的候选目标语言字词所对应的共同出现关联性大于一第一门槛值,利用支持该目标语言与一参考语言的一字典,分别将各该些较高共同出现关联性的候选目标语言字词的每一字,翻译为一对应参考语言字,并从该字典及各该对应参考语言字,判断各该些较高共同出现关联性的候选目标语言字词的各该对应参考语言字之间的关联性,以选择对应参考语言字的关联性最高的候选目标语言字词来作为该目标语言字词,以及在该文字段落中以该目标语言字词转换该来源语言字词;以及
一输出单元,耦接该转换单元,用以输出已转换成该目标语言的该文字段落。
13.根据权利要求12所述的文字转换系统,其特征在于,其中,该些语言数据源包括网页、网络文章、以及语言数据库。
14.根据权利要求12所述的文字转换系统,其特征在于,其中,该系统更包括一通讯单元,耦接该转换单元,用以通过通讯网络链接至该些语言数据源。
文字转换方法与系统
技术领域
[0001] 本发明涉及一种文字转换方法,尤其涉及一种可处理一个来源语言字词对应多个
目标语言字词的文字转换方法与系统。
背景技术
[0002] 随着地球村时代的来临,现代人经常有机会接触来自世界各地的信息。然而在面
对由不熟悉的语言所撰写的资料时,往往必须仰赖语言转换工具的协助来将这些资料转换
为熟悉的语言。
[0003] 大多数的语言转换工具是通过比对对照表来将属于来源语言的字词转换为目标
语言。然而,在对照表未能反映不同语言之间的语意落差以及用语差异时,则十分容易产生
较为失真的转换结果。除此之外,在进行语言转换之际,也常有一个来源语言字词可以被转
换为多个目标语言字词的情况。对此,有部分的语言转换工具会要求使用者以人工的方式
来选取所要转换成的目标语言字词,工具本身无法自动进行选择。另外,也有部分的语言转
换工具会依据各个目标语言字词的出现频率高低来决定要将来源语言字词转换成哪个目
标语言字词。但据统计,此种方式容易选择到错误的目标语言字词,而无法产生高正确率的
语言转换结果。
发明内容
[0004] 有鉴于此,本发明提供一种文字转换方法,特别适用在进行文字转换时针对一对
多对应的字词来自动选择较佳的转换结果。
[0005] 本发明提供一种文字转换系统,能处理不同语言之间的用语差异,以提升文字转
换时的正确性。
[0006] 本发明提出一种文字转换方法,用以将符合来源语言的文字段落转换为目标语
言,其中文字段落包括多个来源语言字词,此方法包括下面步骤:提供一字词对照表,此字
词对照表记录来源语言与目标语言的字词对应关系;对文字段落进行断词处理而得到多个
断词结果;比对上述断词结果与字词对照表,以判断各来源语言字词系属于第一种类和第
二种类二者其中之一,其中属于第一种类的来源语言字词仅对应单一目标语言字词,而属
于第二种类的来源语言字词对应复数个候选目标语言字词;依照字词对照表所记录的字词
对应关系,在文字段落中将属于第一种类的来源语言字词转换成对应的目标语言字词;以
及,将属于第二种类的来源语言字词,根据所对应的各候选目标语言字词及其与文字段落
中至少一前后字词所组成的复数个关联字词的共同出现关联性,从上述候选目标语言字词
中择一作为所要转换成的目标语言字词。
[0007] 本发明提出一种文字转换系统,用以将符合来源语言的文字段落转换为目标语
言,其中文字段落包括多个来源语言字词。此系统包括:一储存单元,用以储存一字词对照
表,字词对照表记录来源语言与目标语言的字词对应关系;一分类单元,耦接储存单元,用
以对文字段落进行断词处理而得到多个断词结果,并比对上述断词结果与字词对照表,以
判断各来源语言字词系属于第一种类和第二种类二者其中之一,其中属于第一种类的来源
语言字词仅对应单一目标语言字词,而属于第二种类的来源语言字词对应复数个候选目标
语言字词;一转换单元,耦接储存单元与分类单元,用以依照字词对照表所记录的字词对应
关系,在文字段落中将属于第一种类的来源语言字词转换成对应的目标语言字词,并将属
于第二种类的来源语言字词,根据所对应的各候选目标语言字词及其与文字段落中至少一
前后字词所组成的复数个关联字词的共同出现关联性,从上述候选目标语言字词中择一作
为所要转换成的目标语言字词;以及一输出单元,耦接转换单元,用以输出已转换成目标语
言的文字段落。
[0008] 本发明另提出一种文字转换方法,用以进行来源语言及目标语言的文字转换,该
方法包括:从符合来源语言的文字段落中取得一来源语言字词;提供一字词对照表,字词
对照表记录来源语言与目标语言的字词对应关系,且来源语言字词对应至少一个候选目标
语言字词;以及,根据所对应的各候选目标语言字词及其与文字段落中至少一前后字词所
组成的复数个关联字词,分别在复数个语言数据源的共同出现关联性,从上述候选目标语
言字词中择一作为所要转换成的目标语言字词。
[0009] 本发明另提出一种文字转换系统,用以进行来源语言及目标语言的文字转换,该
系统包括:一输入单元,从符合来源语言的文字段落中取得来源语言字词;一储存单元,耦
接输入单元,提供一字词对照表,字词对照表记录来源语言与目标语言的字词对应关系,且
来源语言字词对应至少一个候选目标语言字词;一转换单元,耦接输入单元和储存单元,用
以根据所对应的各候选目标语言字词及其与文字段落中至少一前后字词所组成的复数个
关联字词,分别在复数个语言数据源的共同出现关联性,从上述候选目标语言字词中择一
作为所要转换成的目标语言字词;以及,一输出单元,耦接转换单元,用以输出已转换成目
标语言的文字段落。
[0010] 基于上述,本发明在对文字段落进行文字的转换时,对于一来源语言字词对应数
个候选目标语言字词的情况,可根据所对应的各候选目标语言字词及其与文字段落中至少
一前后字词所组成的复数个关联字词的共同出现关联性,从上述候选目标语言字词中选出
最适于转换成的目标语言字词,从而产生较佳的文字转换结果。
[0011] 为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式
作详细说明如下。
附图说明
[0012] 图1是依照本发明的一实施例所示的文字转换系统的方块图。
[0013] 图2是依照本发明的一实施例所示的文字转换方法的流程图。
[0014] 图3是依照本发明的一实施例所示的转换属于第二种类的来源语言字词的流程
图。
[0015] 图4是依照本发明的另一实施例所示的转换属于第二种类的来源语言字词的流
程图。
[0016] 图5是依照本发明的另一实施例所示的文字转换系统的方块图。
[0017] 图6是依照本发明的又一实施例所示的文字转换系统的方块图。
[0018] 图7是依照本发明的又一实施例所示的文字转换方法的流程图。
[0019] 附图标记:
[0020] 100:文字转换系统;
[0021] 110:储存单元;
[0022] 140:分类单元;
[0023] 150:转换单元;
[0024] 160:输出单元;
[0025] 210~250:本发明的一实施例所述的文字转换方法的各步骤;
[0026] 310~330:本发明的一实施例所述的转换属于第二种类的来源语言字词的各步
骤;
[0027] 410~440:本发明的另一实施例所述的转换属于第二种类的来源语言字词的各
步骤;
[0028] 500:文字转换系统;
[0029] 510:输入单元;
[0030] 520:语言模型建立单元;
[0031] 530:字词对照表更新单元;
[0032] 600:文字转换系统;
[0033] 610:输入单元;
[0034] 620:储存单元;
[0035] 630:转换单元;
[0036] 640:输出单元;
[0037] 710~730:本发明的另一实施例所述的文字转换方法的各步骤。
具体实施方式
[0038] 图1是依照本发明的一实施例所示的文字转换系统的方块图。请参阅图1,文字
转换系统100包括储存单元110、分类单元140、转换单元150,以及输出单元160。举例来
说,文字转换系统100可实作在手机、个人数码助理(Personal Digital Assistant,PDA)、
电子书,或移动上网装置(Mobile Internet Device,MID)和各种电脑/计算机等。此外,
文字转换系统100也可以嵌入浏览器、文书处理软件,或者是网站服务之中。
[0039] 文字转换系统100用以将符合来源语言的文字段落转换为目标语言。例如,将
属于简体中文的文字段落转换为繁体中文、将属于繁体中文的文字段落转换为简体中文、
将属于英文的文字段落转换为中文,或将属于中文的文字段落转换为英文等等。本发明
并不对来源语言及目标语言的种类加以限制。文字段落包括多个来源语言字词(term),
来源语言字词可以是属于来源语言的单字(word),或是由数个单字所组成的词语/词组
(phrase)。
[0040] 储存单元110例如是硬盘(Hard Disk Drive,HDD)、固态硬盘(Solid State
Drive,SSD)或闪存(flash memory)储存装置,在此并不对储存单元110的种类加以限制。
储存单元110用以储存转换文字时所需参照的字词对照表,此字词对照表记录了来源语言
和目标语言的字词对应关系。
[0041] 分类单元140耦接储存单元110。分类单元140系用以根据储存单元110中的字
词对照表判断文字段落中的每个来源语言字词属于第一种类或第二种类。其中,属于第一
种类的来源语言字词仅对应单一个目标语言字词,且值得一提的是,来源语言字词与所对
应的目标语言字词的字数并不一定相等。而属于第二种类的来源语言字词则会对应多个候
选目标语言字词。
[0042] 转换单元150耦接储存单元110与分类单元140。转换单元150用以依据分类单
元140的判断结果,对属于不同种类的来源语言字词采用不同的方式来将其转换成目标语
言字词,以确保能产生最佳的转换结果。
[0043] 为了进一步说明文字转换系统100中各个单元的详细运作方式,以下特举另一实
施例来对本发明进行说明。图2是依照本发明的一实施例所示的文字转换方法的流程图,
请同时参阅图1与图2。
[0044] 首先在步骤210中,提供记录在储存单元110中的字词对照表,此字词对照表记录
来源语言与目标语言的字词对应关系。详细地说,字词对照表记录数个属于来源语言的字
词(可以是单字,或由数个单字构成的词组),以及各上述字词所分别对应的一或多个目标
语言字词(可以是单字,或由数个单字构成的词组)。必需特别说明的是,在字词对照表中,
分别属于来源语言与目标语言且相互对应的两个字词,其字数并不一定相等。举例来说,假
设来源语言为简体中文而目标语言为繁体中文,在字词对照表中属于简体中文的字词「西
柚」,其对应的繁体中文字词为「葡萄柚」,而属于简体中文的字词「公交车」,其对应的繁体
中文字词为「公車」。
[0045] 接着如步骤220所示,分类单元140对文字段落进行断词处理而得到数个断词结
果。在本实施例中,分类单元140例如是对文字段落进行双连(bi-gram)或n连(n-gram)
断词处理,以将文字段落中连续且不包括标点符号的部分每两个字或n个字切割成一个断
词结果。然而,本发明并不对分类单元140所采用的断词处理演算法加以限制。
[0046] 接下来在步骤230中,分类单元140将上述断词结果与储存单元110中的字词对
照表进行比对,以判断文字段落中的每一个来源语言字词是属于第一种类或第二种类。详
细地说,若在字词对照表中可找到与文字段落中的一来源语言字词部分或完全相符的字
词,且该字词只对应一个属于目标语言的字词,则可判定该来源语言字词属于第一种类。在
字词对照表中寻找和文字段落中与来源语言字词部分或完全相符的字词时,可依据长词优
先的原则来进行。例如,依据双连或n连(n-gram)断词处理后得到复数个断词结果,依据
长词优先原则,亦即先以较长字词的断词结果,来分别比对每一个断词结果和字词对照表,
以判断字词对照表中是否有和比对中断词结果相符者,若有相符,则判断比对中的断词结
果是一字词。当所有断词结果均比对完之后,依据所有从断词结果中被判断出来的字词,将
文字段落中的文字拆解成复数个来源语言字词。其拆解步骤,是从文字段落中先选出较长
的字词作为来源语言字词,再从文字段落中剩余的字选出次长的字词作为来源语言字词,
以此类推重复进行,直到文字段落中剩下单一字作为来源语言字词。
[0047] 接着在步骤240中,转换单元150依照字词对照表所记录的字词对应关系,在文字
段落中将属于第一种类的所有来源语言字词分别转换成其所对应的目标语言字词。更进一
步时,转换单元150可依据长词优先转换的原则来将属于第一种类的来源语言字词转换为
目标语言字词。
[0048] 最后如步骤250所示,转换单元150将属于第二种类的来源语言字词,根据所对应
的各候选目标语言字词及其与文字段落中至少一前后字词所组成的复数个关联字词的共
同出现关联性,从所对应的候选目标语言字词中择一作为所要转换成的目标语言字词。转
换单元150的详细运作方式将于后配合图示再作说明。
[0049] 当转换单元150依据来源语言字词属于第一种类或第二种类而采取不同的方式
来将来源语言字词转换为对应的目标语言字词之后,便可由输出单元160将完成转换的文
字段落输出以供使用者观看。
[0050] 在以下的实施例中,假设来源语言为简体中文而目标语言为繁体中文,由于简体
中文所使用的字数较少而繁体中文所使用的字数较多,即一个简体中文字可能会对应到多
个繁体中文字,因而在将属于简体中文的文字段落转换为繁体中文时,容易面临一个简体
中文字词对应多个繁体中文字词的情况。举例来说,假设文字转换系统100目前要转换的
文字段落记载「这名博客在网志上面写着,他爱人煮了碗汤面给他吃」这段内容。
[0051] 首先,由分类单元140对文字段落进行断词处理,所产生的断词结果为:「这名」、
「名博」、「博客」、「客在」、「在网」、「网志」、「志上」、「上面」、「面写」、「写着」、...、「碗汤」、「汤面」、「面给」、「给他」、「他吃」。分类单元140将上述断词结果和储存单元110中的字词
对照表进行比对,而判断在此文字段落所包括的所有简体中文字词当中,只有「面」这个简
体中文字词是属于第二种类,其余的简体中文字词都属于第一种类。如字词对照表所记录
的字词对应关系所示,属于第一种类的简体中文字词:「这」、「名」、「博客」、「在」、「网志」、「上」、「写」、「着」、「他」、「爱人」、「煮」、「了」、「碗」、「汤」、「给」、「吃」分别对应繁体中文字词:「這」、「名」、「部落客」、「在」、「部落格」、「上」、「寪」、「著」、「他」、「老婆」、「煮」、「了」、「碗」、「湯」、「給」、「吃」。基此,转换单元150会依照上述字词对应关系,将属于第一种类的简体中文字词直接转换为对应的繁体中文字词。然而由于简体中文字词「面」会对应两个
候选繁体中文字词「面」、「麵」,因此转换单元150会分别判断候选繁体中文字词「面」、「麵」及其与文字段落中的至少一前后字词所组成的数个关联字词的共同出现关联性,进而从候
选繁体中文字词「面」、「麵」中选择要转换成的繁体中文字词。在本实施例中,转换单元150
产生的转换结果为「這名部落客在部落格上面寪著,他老婆煮了碗湯麵給他吃」。
[0052] 在上述实施例中,转换单元150是先转换所有属于第一种类的来源语言字词,接
着对于属于第二种类的来源语言字词,根据所对应的各候选目标语言字词及其与文字段落
中的前后字词所构成的数个关联字词的共同出现关联性,进而从所有的候选目标语言字词
中择一作为所要转换的目标语言字词。
[0053] 更进一步地,以下将以图3来说明转换单元150将属于第二种类的来源语言字词
转换为适当的目标语言字词的详细步骤。在本实施例中,转换单元150会利用语言模型来
计算各候选目标语言字词与前后字词所组成的数个关联字词的共同出现关联性。其中,语
言模型例如是n连(n-gram)语言模型、双连(或n连)语言模型,或其他任何具有词与词
的对照频率的词汇频率对照表。
[0054] 为了方便说明,以下将转换单元150正要处理且属于第二种类的来源语言字词称
的为欲进行转换的来源语言字词。请参阅图3的步骤310,转换单元150利用一语言模型分
别计算欲进行转换的来源语言字词的各个候选目标语言字词,其与文字段落中至少一前后
字词所组成的数个关联字词的共同出现关联性。详言之,转换单元150依据欲进行转换的
来源语言字词在文字段落中的位置,取得文字段落中的至少一前后字词(例如前一字、后
一字、前二字、后二字……等),而候选目标语言字词与上述前后字词可组成数个关联字词。
转换单元150将利用语言模型计算上述关联字词的共同出现关联性。
[0055] 举例来说,假设来源语言为简体中文、目标语言为繁体中文,转换单元150采用的
语言模型为n连语言模型,并以文字段落「這名部落客在部落格上(面)寪著,他老婆煮了
碗湯(面)給他吃」为例,其中括弧内的简体中文「面」字,是尚未确认转换且属于第二种类
的来源语言字词,其对应的候选目标语言字词为繁体中文的「面」、「麵」二个字。当转换单
元150要将第一个括弧内的「面」转换为适当的目标语言字词时,转换单元150根据第一个
括弧内的「面」在文字段落中的位置,从「這名部落客在部落格上」这些字词中定义出至少
一前后字词。以候选目标语言字词「面」为例,其与上述前后字词所组成的关联字词为「上
面」、「格上面」、「落格上面」、...、「名部落客在部落格上面」、「造名部落客在部落格上面」。
转换单元150会在语言模型中找出所有出现「面」这个字词的次数(以F(面)来表示),并
在语言模型中找出关联字词「上面」的出现次数(以F(上面)来表示)。值得一提的是,倘
若找到的次数为0,表示在语言模型中没有对应的关联字词,基此,转换单元150会将次数
设定为一预设数值,以防止计算出概率为0的结果。在语言模型中,出现关联字词「上面」
的概率P(上面)可以下列算式来表示:
[0056]
[0057] 接着,转换单元150会在语言模型中找出关联字词「格上面」的出现次数(以F(格
上面)来表示),并以下列算式计算在语言模型中出现关联字词「格上面」的概率P(格上
面):
[0058]
[0059] 以此类推,转换单元150分别计算出P(上面)、P(格上面)、...、P(名部落客在
部落格上面)、P(這名部落客在部落格上面)等概率值,并以上述概率值的乘积来作为候选
目标语言字词「面」及其与前后字词所组成的数个关联字词的共同出现关联性。
[0060] 同理,在判断候选目标语言字词「麵」及其与前后字词所组成的数个关联字词的共
同出现关联性时,转换单元150也会算出P(上麵)、P((格上麵)、…、P(名部落客在部落
格上麵)、P(這名部落客在部落格上麵)等概率值,并以上述概率值的乘积来作为候选目标
语言字词「麵」所对应的共同出现关联性。
[0061] 接着在步骤320中,转换单元150在来源语言字词所对应的所有候选目标语言字
词中,选择对应最高的共同出现关联性的候选目标语言字词来作为目标语言字词。延续前
述实施例,假设候选目标语言字词「面」所对应的共同出现关联性高于候选目标语言字词
「麵」所对应的共同出现关联性,转换单元150便会选择候选目标语言字词「面」作为目标语
言字词。
[0062] 最后如步骤330所示,转换单元150在文字段落中将来源语言字词转换为目标语
言字词。
[0063] 在另一实施例中,为了加快处理速度,转换单元150也可以采用双连语言模型来
计算各候选目标语言字词及其与文字段落中至少一前后字词所组成的数个关联字词的共
同出现关联性。
[0064] 同样以文字段落「這名部落客在部落格上(面)寪著,他老婆煮了碗湯(面)給
他吃」为例,其中括弧内的简体中文「面」字,是尚未转换且属于第二种类的来源语言字词,
其对应的候选目标语言字词为繁体中文「面」、「麵」二个字。当转换单元150要将第一个括
弧内的「面」转换为适当的目标语言字词时,转换单元150在「這名部落客在部落格上」这
些字词中取得前后字词。接着,转换单元150会分别算出P(上面)、P(格上)、P(落格)、
P(部落)、...、P(名部)、P(這名)等概率值(概率值的计算方式与前述实施例相似),并
以上述概率值的乘积来作为候选目标语言字词「面」所对应的共同出现关联性。转换单元
150也将算出P(上麵)、P(格上)、P(落格)、P(部落)、...、P(名部)、P(這名)等概率
值,并以上述概率值的乘积来当作候选目标语言字词「面」所对应的共同出现关联性。转换
单元150根据这两个候选目标语言字词所对应的的共同出现关联性的大小而决定选择哪
个候选目标语言字词作为目标语言字词。
[0065] 一般来说,针对文字段落中属于第二类的来源语言字词,转换单元150可采用图3
所示的各步骤从所对应的数个候选目标语言字词中选择真正要转换成的目标语言字词。然
而在语言模型中相关数据太少的情况下,可能导致各候选目标语言字词所对应的共同出现
关联性的差距过小,甚至可能有数个候选目标语言字词所对应的共同出现关联性相同。基
此,在另一实施例中,转换单元150例如会采用图4所示的各步骤来决定如何从数个候选目
标语言字词中择一作为要转换成的目标语言字词。
[0066] 请参阅图4,由于步骤410与图3的步骤310相同或相似,故在此不再赘述。
[0067] 如步骤420所示,转换单元150在来源语言字词所对应的所有候选目标语言字词
中,选择数个较高共同出现关联性的候选目标语言字词。其中,上述较高共同出现关联性
的候选目标语言字词为其所对应的共同出现关联性大于一第一门槛值。举例来说,第一门
槛值例如是所有候选目标语言字词所对应的共同出现关联性的平均值、或前标等任何统计
值。因此,当有数个候选目标语言字词都对应相同且最高的共同出现关联性时,该些候选目
标语言字词会被选作为较高共同出现关联性的候选目标语言字词。或者,当有数个候选目
标语言字词对应的共同出现关联性明显高于其他的候选目标语言字词,且这些候选目标语
言字词对应的共同出现关联性彼此间的差距不大(例如小于第二门槛值)时,则以该些候
选目标语言字词作为较高共同出现关联性的候选目标语言字词。
[0068] 接着在步骤430中,转换单元150利用支持目标语言与一参考语言的字典,分别将
各较高共同出现关联性的候选目标语言字词的每一字都翻译为一对应参考语言字,并根据
字典及各对应参考语言字来判断各较高共同出现关联性的候选目标语言字词的上述对应
参考语言字之间的关联性,从而选择对应参考语言字的关联性最高的候选目标语言字词来
作为目标语言字词。
[0069] 最后如步骤440所示,转换单元150在文字段落中将来源语言字词转换为目标语
言字词。
[0070] 举例来说,假设来源语言为简体中文、目标语言为繁体中文,且参考语言为英文。
以文字段落「但是她依舊昂然自得地(划)動槳」为例,其中括弧内「划」字的是尚未转换
且属于第二种类的来源语言字词,其对应的候选目标语言字词为「劃」以及「划」。转换单元
150会根据图4所示的各步骤来决定要将文字段落转换为「但是她依舊昂然自得地劃動槳」
或「但是她依舊昂然自得地划動槳」。
[0071] 详言之,在本实施例中转换单元150以来源语言字词在文字段落中的位置为中心
取得前后n个字距内的字词,并将各候选目标语言字词与上述字词组成较高共同出现关联
性的候选目标语言字词。以n等于3为例,较高共同出现关联性的候选目标语言字词为「自
得地劃動槳」、「自得地划動槳」。
[0072] 转换单元150利用支持繁体中文及英文的字典,将较高共同出现关联性的候选目
标语言字词「自得地劃動槳」中的每一字翻译为对应参考语言字。举例来说,转换单元150
将「劃」这个字译为“draw”及“scratch”这两个对应参考语言字、将「槳」这个字译为对应
参考语言字“oar”,以此类推。此外,转换单元150利用支持繁体中文及英文的字典,将「自
得地划動槳」中的「划」这个字译为对应参考语言字“paddle”,将「槳」这个字译为对应参
考语言字“oar”,以此类推。
[0073] 在一实施例中,转换单元150系根据各对应参考语言字在字典中在复数个字义解
释的出现频率,以决定各对应参考语言字之间的关联性。例如,在支持繁体中文及英文的字
典中,对应参考语言字“paddle”有出现在对应参考语言字“oar”的字义解释之中,但对应
参考语言字“draw”、“scratch”均未出现在对应参考语言字“oar”的字义解释之中。即,对
应参考语言字“paddle”在对应参考语言字“oar”的字义解释的出现频率高于对应参考语
言字“draw”、“scratch”在对应参考语言字“oar”的字义解释的出现频率,因此转换单元
150判断对应参考语言字“paddle”与对应参考语言字“oar”之间的关联性高于对应参考语
言字“draw”、“scratch”与对应参考语言字“oar”之间的关联性。基此,转换单元150选择
在文字段落中将来源语言字词「划」转换为目标语言字词「划」,而不是目标语言字词「劃」。
[0074] 然而在另一实施例中,转换单元150还可以利用一语意关系树(Semantic Tree)
来计算各对应参考语言字之间的语意距离,以判断各对应参考语言字之间的关联性。其中,
语意距离越近表示关联性越高。由于利用语意关系树计算两字之间的语意距离为本领域的
常用技术手段,故在此不再赘述。
[0075] 图5是依照本发明的另一实施例所示的文字转换系统的方块图。如图5所示,文字
转换系统500包括储存单元110、分类单元140、转换单元150、输出单元160、输入单元510、
语言模型建立单元520,以及字词对照表更新单元530。由于储存单元110、分类单元140、
转换单元150与输出单元160和图1所示的文字转换系统100所包括的对应单元具有相同
或相似的功能,故在此不再赘述。
[0076] 在本实施例中,输入单元510耦接储存单元110,用以接收符合来源语言的文字段
落。
[0077] 语言模型建立单元520耦接至储存单元110。储存单元110储存有至少一语料
库,上述语料库可以是既有的平行语料库(parallel corpus)或是由文字转换系统500通
过自动探勘所产生的平行语料库。而语言模型建立单元520会训练上述语料库来建立语
言模型。举例来说,倘若语言模型建立单元520要建立n连语言模型,语言模型建立单元
520会统计语料库中的语料以产生词频信息,并利用最大似然估计(Maximum Likelihood
Estimation,MLE)来估算n连语言模型的概率表示,据此产生n连语言模型。
[0078] 正因为语言模型建立单元520系基于字词和前后字词之间的关联性来建立语言
模型,因此文字转换系统500在利用语言模型处理一对多的转换问题时,便能选出所对应
的共同出现关联性较高的字词,从而产生较正确适当的文字转换结果。
[0079] 字词对照表更新单元530耦接至储存单元110。字词对照表更新单元530会利用
储存单元110中既有的字词对照表,以网络探勘的方式自动产生对应来源语言及目标语言
的平行语料库,并根据平行语料库来更新字词对照表的内容。
[0080] 具体而言,字词对照表更新单元530通过网络探勘技术得到来源语言数据集与目
标语言数据集。其中,语言数据集中的语料可以是词、例句、文字段落、文章片段,或文章等
等。接着,依据储存单元110中既有的繁转简对照表,从来源语言数据集与目标语言数据集
分别找出相互对应的来源语言语料与目标语言语料,再利用来源语言语料与目标语言语料
产生平行语料库。举例来说,字词对照表更新单元530从来源语言数据集以及目标语言数
据集中,个别取出一篇可能在描述类似事件的文章,并且在这两篇文章中选出相似而可能
对列的两个例句。接着,利用这两个例句计算这两篇文章的对列概率值,从而判断这两篇文
章是否为高品质的对列文章。若为高品质的对列文章,前述对列的两个例句则可作为平行
语料库中的一组数据。通过上述方式,字词对照表更新单元530便可产生平行语料库,此平
行语料库将被储存至储存单元110。
[0081] 此外,字词对照表更新单元530会依据平行语料库扩充字词对照表的内容。详细
地说,字词对照表更新单元530从平行语料库所储存的相互对列且分别为来源语言及目标
语言的两个例句中找出对应的字词(例如,分别属于来源语言及目标语言且对照起来具有
差异的词汇即被视为相互对应的字词)。若找出的对应字词并未出现于字词对照表,字词对
照表更新单元530则会将其加入字词对照表以扩充字词对照表的内容。
[0082] 在一实施例中,假设来源语言为简体中文且目标语言为繁体中文,若在平行语料
库中属于简体中文的字词「扎啤」和属于繁体中文的字词「生啤酒」彼此对应的次数到达一
预设数量(例如10),字词对照表更新单元530便会判定「扎啤」与「生啤酒」是互为转换
的字词。字词对照表更新单元530会替这些互为转换的字词建立索引(例如建立反向索引
(inverted index))。如此一来,字词对照表更新单元530便可根据字词对照关系和索引来
更新字词对照表的内容,或是自动建立一个新的字词对照表。
[0083] 由字词对照表更新单元530所更新或建立的字词对照表能反映来源语言及目标
语言之间的用语差异,并且能提供字数不一致的字词对应关系。据此确保文字转换系统500
能产生较佳的转换结果。
[0084] 在本发明的一实施例中,当文字转换系统500被应用在手机、PDA或电子书等移动
装置时,由于移动装置的处理器的速度、存储器以及储存空间的大小均有较多限制,为了加
快文字转换的速度,语言模型建立单元520在建立语言模型之后,将设法减少语言模型的
数据量,从而提升文字转换系统500的处理效率。
[0085] 举例来说,语言模型建立单元520在以上述方式建立语言模型之后,仅会将包含
容易发生转换错误的一对多字词的句子,以及包含出现频率较高的字词的句子保留下来。
[0086] 除此之外,针对被保留下来的各个句子,语言模型建立单元520会从中截取出必
要的句子片段,以进一步缩减数据量。好比说,语言模型建立单元520以出现频率较高或一
对多的字词为中心,取出前后n(例如3)个字所组成的较短句子片段,不属于上述句子片段
中的字词则会被删除。例如,假设语言模型包括「现在他剛從六百裡外的煤礦回來」这样的
繁体中文句子,其中「裡」为频率较高的字词。语言模型建立单元520会将语言模型中「现
在他剛從六百裡外的煤礦回來」的繁体中文句子精简为「從六百裡外的煤」。
[0087] 再者,语言模型建立单元520还可以将经过精简的语言模型转换成二进制档案
(binary file),以提升使用语言模型时的处理速度。
[0088] 类似地,为了减少对字词对照表进行比对及搜寻所花费的时间,字词对照表更新
单元530会使用散列函数(hash function)来处理字词对照表,从而达到加快比对速度的
目的。
[0089] 图6是依照本发明的又一实施例所示的文字转换系统的方块图。请参阅图6,文字
转换系统600包括输入单元610、储存单元620、转换单元630,以及输出单元640。文字转
换系统600可应用在手机、个人数码助理、电子书、各种电脑/计算机、或移动上网装置。或
者,文字转换系统600也可以嵌入浏览器、文书处理软件,或者是网站服务之中。文字转换
系统600用以将符合来源语言的文字段落转换为目标语言,在此并不对来源语言及目标语
言加以限定。
[0090] 在本实施例中,输入单元610用以从符合来源语言的文字段落中取得一来源语言
字词。
[0091] 储存单元620耦接输入单元610。储存单元620例如是硬盘、固态硬盘或闪存等各
种储存装置,用以提供一字词对照表,此字词对照表记录来源语言与目标语言的字词对应
关系,且来源语言字词对应至少一个候选目标语言字词。由于储存单元620中的字词对照
表与图1的储存单元110中的字词对照表相同或相似,故在此不再赘述。
[0092] 转换单元630耦接输入单元610、储存单元620和输出单元640。转换单元630用
以参考数个语言数据源以决定如何将文字段落中的来源语言字词转换为目标语言字词。再
由输出单元640输出以转换成目标语言的文字段落。
[0093] 在另一实施例中,文字转换系统600更包括通讯单元(未示出)。通讯单元耦接转
换单元630,用以通过通讯网络链接至各个语言数据源。
[0094] 以下将以图7来说明文字转换系统600的详细运作方式,请同时参阅图6与图7。
[0095] 首先如步骤710所示,输入单元610从符合来源语言的文字段落中取得一来源语
言字词。接着在步骤720中,提供储存单元620所记录的字词对照表。字词对照表记录来
源语言与目标语言的字词对应关系,且来源语言字词对应至少一个候选目标语言字词。
[0096] 如步骤730所示,转换单元630根据来源语言字词所对应的各候选目标语言字词
及其与文字段落中至少一前后字词所组成的数个关联字词分别在数个语言数据源的共同
出现关联性,从上述候选目标语言字词中择一作为所要转换成的目标语言字词。
[0097] 举例来说,语言数据源例如是网页、网络文章、以及语言数据库等等。转换单元630
可利用一语言模型分别计算各候选目标语言字词及其与文字段落中至少一前后字词所组
成的数个关联字词,分别在上述语言数据源的共同出现关联性。其中,语言模型可以是n连
语言模型、双连语言模型,或其他任何具有词与词的对照频率的词汇频率对照表,在此并不
加以限制。由于计算共同出现关联性的方式与前述实施例相似,故在此不再赘述。
[0098] 另一种实施方式,转换单元630中所说的数个关联字词分别在数个语言数据源的
共同出现关联性,可以是通过一搜寻引擎或一查询接口,从数个语言数据源(网页、网络文
章、以及语言数据库等)中,搜寻并统计各关联字词所出现的数量或频率,并选择出现数量
/频率较高的关联字词作为所要转换成的目标语言字词。
[0099] 转换单元630在所有的候选目标语言字词中,选择对应最高的共同出现关联性的
候选目标语言字词来作为目标语言字词,并且在文字段落中以目标语言字词转换来源语言
字词。再由输出单元640输出转换成目标语言的文字段落。
[0100] 如上所述,文字转换系统600在接收符合来源语言的文字段落后,将到网络搜寻
相关的网页、网络文章、以及语言数据库等大量的语言数据源,进而决定如何从来源语言字
词所对应的至少一候选目标语言字词中选择真正要转换成的目标语言字词,以产生较佳的
文字转换结果。
[0101] 必需特别说明的是,在上述实施例中虽然是以简体中文作为来源语言并以繁体中
文作为目标语言来进行说明,但本发明并不以此为限。在其他实施例中,来源语言可以是繁
体中文,而目标语言为简体中文。或者,来源语言为中文,而目标语言为英文。本发明并不
对来源语言以及目标语言的种类加以限制。
[0102] 综上所述,本发明所述的文字转换方法与系统在将文字段落由来源语言转换为目
标语言时,能自动处理不同语言之间的用语差异,且针对一对多的字词对应情况,也能根据
所对应的各候选目标语言字词及其与文字段落中至少一前后字词所组成的复数个关联字
词的共同出现关联性,自动且正确地从中选出最适于转换成的字词。如此一来,可大幅提升
将文字段落转换为不同语言的正确性。
[0103] 虽然本发明已以实施例揭示如上,然其并非用以限定本发明,任何所属技术领域
的技术人员,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护
范围当以权利要求所界定的为准。
法律信息
- 2014-09-17
- 2012-07-25
实质审查的生效
IPC(主分类): G06F 17/28
专利申请号: 201010576958.7
申请日: 2010.12.02
- 2012-06-06
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-10-29
|
2008-04-22
| | |
2
| |
2010-05-12
|
2008-03-25
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |