著录项信息
专利名称 | 借助多语文本输入的第三语言文本生成算法及其设备和程序 |
申请号 | CN02817660.X | 申请日期 | 2002-08-09 |
法律状态 | 驳回 | 申报国家 | 暂无 |
公开/公告日 | 2004-12-08 | 公开/公告号 | CN1554058 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | 暂无 | IPC分类号 | 暂无查看分类表>
|
申请人 | 独立行政法人通信综合研究所 | 申请人地址 | 日本东京都
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 独立行政法人通信综合研究所 | 当前权利人 | 独立行政法人通信综合研究所 |
发明人 | 井佐原均 |
代理机构 | 中国国际贸易促进委员会专利商标事务所 | 代理人 | 蒋世迅 |
摘要
通过输入众多多语文本并通过使用多语文集,生成比迄今为止出现的只输入单语文本更准确的第三语言文本的一种技术。在输入文本后,执行分析处理,转换处理和生成处理,然后输出目标语言文档文本。由于能够自动获取语言的信息特征,所以生成目标语言文档文本不需要大规模文集。
1.一种供基于计算机的语言处理使用的第三语言文本生成算法,通 过使用众多双语文本生成一种新的第三语言文本,该算法包括以下步骤:
输入用不同语言书写的两个或更多多语文本,不同语言包括作为源 语言的第一语言和将第一语言翻译成的至少一种第二语言;
以每种语言或任意两种或多种语言之组合的方式,在每个多语文本 上执行包括至少相依分析和语义分析的语言分析,从而获取有关至少相 依结构和语义表示的语言信息;以及
生成第三语言文本,
其中生成步骤通过使用分析步骤获取的语言信息生成第三语言文 本,或者
该算法还包括以下步骤,根据分析步骤获得的分析结果,或者根据 分析结果和第三语言的转换知识特征,执行语言转换,转换步骤在分析 步骤之后,
其中生成步骤通过使用分析步骤获取的语言信息或转换步骤获取的 转换结果,生成第三语言文本。
2.根据权利要求1的第三语言文本生成算法,其中分析步骤包括:
为确定构成多语文本的单词之间的对应,构成多语文本的短语之间 的对应和构成多语文本的句子之间的对应而执行关联处理的关联步骤;
通过使用先前准备的分析模块分析至少第一语言文本的分析步骤; 以及
通过使用先前准备的分析模块,根据关联处理的结果,分析与第一 语言文本相对应的至少第二语言文本中的各个部分,然后合并分析结果 的合并步骤。
3.根据权利要求1或2的第三语言文本生成算法,其中分析、转换 和生成步骤中的至少一个步骤可以使用基于规则的信息,该信息包含至 少每种语言的词典信息或语法信息,以及基于从文集中的实际数据中获 得的学习结果的经验信息。
4.根据权利要求1到3的第三语言文本生成算法,其中生成步骤包 括:
自动获取至少第三语言句法结构信息的部分或全部信息,或有关现 有第三语言文集的第三语言单词用法信息;以及
根据自动获取的第三语言的信息特征,生成第三语言文本。
5.一种供语言处理使用的第三语言文本生成设备,通过使用众多语 言生成一种新的第三语言文本,该设备包括:
输入装置,用于输入用不同语言书写的两个或更多多语文本,不同 语言包括作为源语言的第一语言和将第一语言翻译成的至少一种第二语 言;
分析装置,用于以每种语言或任意两种或多种语言之组合的方式, 在每个多语文本上执行包括至少相依分析和语义分析的语言分析,从而 获取有关至少相依结构和语义表示的语言信息;
用于生成第三语言文本的生成装置;以及
能够输出生成装置生成的第三语言文本的输出装置,
其中生成装置通过使用分析装置获取的语言信息生成第三语言文 本,或者
该设备还包括转换装置,该装置根据分析装置获得的分析结果,或 者根据分析结果和第三语言的转换知识特征,执行语言转换,
其中生成装置通过使用至少分析装置获取的语言信息或转换装置获 取的转换结果,生成第三语言文本。
6.根据权利要求5的第三语言文本生成设备,其中分析装置包括:
为确定构成多语文本的单词之间的对应,构成多语文本的短语之间 的对应和构成多语文本的句子之间的对应而执行关联处理的关联部分;
分析至少第一语言文本的分析模块;以及
通过使用先前准备的分析模块,根据关联处理的结果,分析与第一 语言文本相对应的至少第二语言文本中的各个部分,然后合并分析结果 的合并部分。
7.根据权利要求5或6的第三语言文本生成设备,还包括信息存储 装置,用于存储包含至少每种语言的词典信息或语法信息的基于规则的 信息,以及基于从文集中的实际数据中获得的学习结果的经验信息,
其中分析装置、转换装置和生成装置中的至少一个装置,根据信息 存储装置中存储的基于规则的信息和经验信息,执行分析处理。
8.根据权利要求5到7的第三语言文本生成设备,还包括至少第三 语言信息获取装置或第三语言信息存储装置,前者用于自动获取至少第 三语言句法结构信息的部分或全部信息,或有关现有第三语言文集的第 三语言单词用法信息,后者能够保存先前自动获取的第三语言的信息特 征,
其中生成装置根据第三语言的信息特征,生成第三语言文本。
9.根据权利要求5到8的第三语言文本生成设备,其中输入装置能 够将至少一种计算机数据输入到该设备中,计算机数据为:将一张纸或 一本书之类的文档文本转换为电磁记录的文档文本捕获/转换装置转换的 计算机数据;从硬盘、光存储器或存储器之类的电磁记录设备中读取的 计算机数据;以及可从因特网之类的网络上的电磁存储设备中获得的计 算机数据。
10.供基于计算机的语言处理使用的一种第三语言文本生成程序,通 过使用众多多语文本生成一种新的第三语言文本,该程序包括:
输入部分,用于从计算机的存储设备或输入设备中获得用不同语言 书写的两个或更多多语文本,不同语言包括作为源语言的第一语言和将 第一语言翻译成的至少一种第二语言;
分析部分,用于以每种语言或任意两种或多种语言之组合的方式, 在每个获得的多语文本上执行包括至少相依分析和语义分析的语言分 析,并且通过使用计算机的运算器和存储设备执行算术运算,获取有关 至少相依结构和语义表示的语言信息;
生成部分,通过使用计算机的运算器和存储设备执行算术运算,生 成第三语言文本;以及
输出部分,利用计算机的存储设备或输出设备输出生成部分生成的 第三语言文本,
其中生成部分通过使用分析部分获取的语言信息生成第三语言文 本,或者
该程序还包括转换部分,用于根据分析部分获得的分析结果,或者 根据分析结果和第三语言的转换知识特征,执行语言转换,
其中生成部分通过使用至少分析部分获取的语言信息或转换部分获 取的转换结果,生成第三语言文本。
11.根据权利要求10的第三语言文本生成程序,其中分析部分包括:
为确定构成多语文本的单词之间的对应,构成多语文本的短语之间 的对应和构成多语文本的句子之间的对应而执行关联处理的关联例程;
分析至少第一语言文本的分析例程;以及
通过使用分析例程,根据关联处理的结果,分析与第一语言文本相 对应的至少第二语言文本中的各个部分,然后合并分析结果的合并例程。
12.根据权利要求10或11的第三语言文本生成程序,其中分析部分、 转换部分和生成部分中的至少一个部分使用基于规则的信息,该信息包 含至少每种语言的词典信息或语法信息的基于规则的信息,以及基于从 文集中的实际数据中获得的学习结果的经验信息。
13.根据权利要求10到12的第三语言文本生成程序,还包括第三语 言信息读取例程,该例程读出自动获取部分获取的第三语言的信息特征, 或至少有关现有第三语言文集的第三语言句法结构信息或第三语言单词 用法信息的所有信息,
其中生成部分根据第三语言的信息特征,生成第三语言文本。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2013-01-23 | 2013-01-23 | | |
2 | | 2014-12-16 | 2014-12-16 | | |
3 | | 2014-12-16 | 2014-12-16 | | |
4 | | 2013-01-23 | 2013-01-23 | | |