著录项信息
专利名称 | 语音识别设备和语音识别方法 |
申请号 | CN03138149.9 | 申请日期 | 2003-05-27 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2003-12-24 | 公开/公告号 | CN1462995 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G10L15/14 | IPC分类号 | G10L15/14;G10L15/02;G10L15/28查看分类表>
|
申请人 | 日本先锋公司 | 申请人地址 | 日本***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 日本先锋公司 | 当前权利人 | 日本先锋公司 |
发明人 | 小林载;外山聪一 |
代理机构 | 中国专利代理(香港)有限公司 | 代理人 | 王岳;陈霁 |
摘要
一种语音识别装置包括:HMM模型数据库(106),预存表示待识别关键词的特征图型的关键词HMM;似然性计算器,通过将每个帧中的语音信号的所提取特征值与关键词HMM和指定语音HMM进行比较来计算其似然性;无关语音似然性设置装置(108),基于与指定语音HMM匹配的所计算似然性来设置无关语音似然性;匹配处理器,基于所计算的似然性和无关语音似然性来执行匹配过程;以及确定装置,基于匹配过程来确定包含在自然语音中的关键词。
1.一种用于识别所发出自然语音中包含的至少一个关键词的语 音识别设备,特征在于所述设备包括:
提取装置(104、105),用于通过分析自然语音来提取自然语音 的特征值,该特征值是自然语音的语音成分的特征值;
数据库(106、201),用于存储关键词特征数据,该特征数据表 示关键词语音成分的特征值;
计算装置(107、202),用于基于从自然语音提取的至少一部分 语音段和在所述数据库(106、201)中存储的关键词特征数据来计算 关键词概率,该概率表示所述自然语音特征值对应于所述关键词的概 率;
设置装置(107、108、202),用于在所述提取装置(104、105) 所提取的所述被提取的自然语音特征值和多个指定语音特征值的基 础上,设置无关语音概率,该概率表示从自然语音提取的至少一部分 语音段对应于表示非关键词的无关语音的概率;以及
确定装置(109、110、203),用于基于所计算关键词概率和作 为预设值的无关语音概率来确定包含在自然语音中的所述关键词。
2.依照权利要求1的语音识别设备,其中所述指定语音特征值表 示元音的特征。
3.依照权利要求2的语音识别设备,其中设置装置(107、108) 包括:
指定语音概率计算装置(107),用于基于所述提取装置(104、 105)所提取的所述自然语音的语音成分的特征值和所述指定语音特 征值来计算指定语音概率,该概率表示所述自然语音特征值对应于所 述指定语音特征值的概率;以及
无关语音概率设置装置(108),用于在所计算指定语音概率的基 础上设置所述无关语音概率。
4.依照权利要求3的语音识别设备,在所述指定语音概率计算装 置(107)计算多个指定语音概率的情况下,其中
所述无关语音概率设置装置(108)计算被输入的输出概率和状态 转变概率的平均,并向所述确定装置(109)输出所计算的平均作为 无关语音概率。
5.依照权利要求2到4中任何一项的语音识别设备,其中所述设 置装置(107、108)将所述数据库(106)中存储的至少一部分关键 词特征数据用作指定语音特征值。
6.依照权利要求1的语音识别设备,其中所述设置装置(202) 将表示固定值的预设值设置为所述无关语音概率。
7.依照权利要求1的语音识别设备,其中:
所述提取装置(104、105)通过以预设时间间隔分析自然语音来 提取所述自然语音特征值,并且由所述设置装置(107、108、202) 设置的无关语音概率表示该时间间隔内的无关语音概率;
所述计算装置(107、202)基于以所述时间间隔提取的所述自然 语音特征值来计算关键词概率;并且
所述确定装置(109、110、203)基于所述时间间隔内的所计算 关键词概率和无关语音概率来确定包含在自然语音中的关键词。
8.依照权利要求7的语音识别设备,其中所述确定装置(109、 110、203)基于在所述时间间隔内的所计算关键词概率和无关语音概 率来计算组合概率,该组合概率表示由存储在所述数据库(106、201) 中的关键词特征数据表示的每个关键词和无关语音概率的组合的概 率,并且基于组合概率来确定包含在自然语音中的关键词。
9.一种识别所发出的自然语音中包含的至少一个关键词的语音 识别方法,特征在于所述方法包括:
提取过程,通过分析自然语音来提取自然语音特征值,该特征值 是自然语音的语音段的特征值;
计算过程,基于从自然语音提取的至少一部分语音段和在数据库 (106、201)中存储的关键词特征数据来计算关键词概率,该概率表 示所述自然语音特征值对应于所述关键词的概率,所述关键词特征数 据表示关键词的语音段的特征值;
设置过程,用于在所述提取过程所提取的所述被提取的自然语音 特征值和多个指定语音特征值的基础上,设置无关语音概率,该概率 表示从自然语音提取的至少一部分语音段对应于表示非关键词的无 关语音的概率;以及
确定过程,基于所计算关键词概率和作为预设值的无关语音概率 来确定包含在自然语音中的关键词。
10.依照权利要求9的语音识别方法,其中所述指定语音特征值 表示元音的特征。
11.依照权利要求9的语音识别方法,其中所述设置过程将表示 固定值的预设值设置为所述无关语音概率。
技术领域
本发明涉及有关通过HMM(隐马尔可夫模型)方法进行语音识别 的技术领域,具体而言,涉及有关识别出自自然语音的关键词的技术 领域。
背景技术
近些年来,已开发了识别人发出的自然语音的语音识别设备。当 人说出预定词时,这些装置从其输入信号来识别所说的词。
例如,被配备有这种语音识别设备的各种装置,如安装在车辆中 用于引导车辆移动的导航系统和个人计算机,将允许用户输入各种信 息而无需手动的键盘或开关选择操作。
因此,例如,即使在操作者正用他/她的双手驾驶车辆的工作环 境中,操作者亦可在导航系统中输入所需信息。
典型的语音识别方法包括采用被称为HMM(隐马尔可夫模型)的 概率模型的方法。
在语音识别中,通过将自然语音的特征值图型与表示被称为关键 词的候选词并事先被准备的语音的特征值图型进行匹配,自然语音被 识别。
具体而言,在语音识别中,被分为预定持续时间段的所输入自然 语音(输入信号)的特征值通过分析所输入自然语音而被提取,输入 信号特征值和由预存在数据库中的HMM表示的关键词的特征值之间的 匹配程度(以下被称为似然性)被计算,整个自然语音过程中的似然 性被累计,并且有最高似然性的关键词被确定为所识别的关键词。
这样,在语音识别中,关键词在由人所发出自然语音的输入信号 的基础上被识别。
顺便提及,HMM是被表示为一组转变状态的统计源模型。它表示 待识别预定语音如关键词的特征值。此外,HMM是在事先采样的多个 语音数据的基础上被生成的。
对于这种语音识别,重要的是如何提取包含在自然语音中的关键 词。
除关键词以外,自然语音通常还包含无关语音(extraneous speech),即在识别中不必要的先前已知词(诸如关键词之前和之后 的“er”或“please”的词),并且在原则上,自然语音由无关语音 所夹的关键词组成。
在常规上,语音识别常常采用“词识别”技术来识别待被语音识 别的关键词。
在词识别技术中,不仅表示关键词模型而且表示无关语音模型 (以下被称为无用信息模型(garbage model))的HMM被准备,并 且通过识别其特征值具有最高似然性的关键词模型、无用信息模型或 其组合,自然语音被识别。
这样,词识别技术基于所累计的似然性来识别其特征值具有最高 似然性的关键词模型、无用信息模型或其组合,并将包含在自然语音 中的任何关键词输出为所识别关键词。
在基于词识别的语音识别中,被称为Filler模型的概率模型可 被用于构建无关语音模型。
如图7中所示,为建立整个语音的模型,Filler模型表示通过网 络的元音和辅音的所有可能联系。对于词识别,每个关键词模型需要 在两端与Filler模型联系。
具体而言,基于Filler模型的语音识别涉及计算所有可识别图 型,即待识别的自然语音的特征值和每个音位的特征值之间的每个匹 配,由此计算自然语音中的音位之间的联系,并使用形成联系的路径 中的路径的最佳图型来识别无关语音。
发明内容
这种语音识别装置执行自然语音特征值和无关语音所有可能分 量如音位的特征数据之间的匹配,从而识别无关语音。因此,其涉及 大量的计算工作,从而导致大的计算负荷。
本发明已考虑到以上问题。其目的是提供一种语音识别装置,该 装置通过减小在匹配过程中计算似然性所需的计算工作,从而以高速 度正确地执行语音识别。
本发明的以上目的可通过本发明的语音识别设备来实现。用于识 别所发出自然语音中包含的至少一个关键词的语音识别设备包括:提 取装置,用于通过分析自然语音来提取自然语音的特征值,该特征值 是自然语音的语音成分的特征值;数据库,用于存储关键词特征数 据,该特征数据表示关键词语音成分的特征值;计算装置,用于基于 从自然语音提取的至少一部分语音段和在数据库中存储的关键词特 征数据来计算关键词概率,该概率表示自然语音特征值对应于关键词 的概率;设置装置,用于在预设值的基础上设置无关语音概率,该概 率表示从自然语音提取的至少一部分语音段对应于无关语音的概 率,无关语音表示非关键词;以及确定装置,用于基于所计算关键词 概率和作为预设值的无关语音概率来确定包含在自然语音中的关键 词。
依照本发明,表示自然语音特征值对应于关键词特征数据所表示 的关键词的概率的关键词概率被计算,基于预设值的无关语音概率被 设置,并且基于所计算关键词概率和作为预设值的无关语音概率,包 含在自然语音中的关键词被确定。
因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。因此,有可能减小计算无关语音概率所需的处理 负荷,并以高速度容易地识别包含在自然语音中的关键词。
在本发明的一个方面中,本发明的语音识别设备被进一步提供 有;其中设置装置基于提取装置所提取的自然语音特征值和作为预设 值的表示语音成分特征值的多个指定语音特征值来设置无关语音概 率。
依照本发明,基于自然语音特征值和作为预设值的多个指定语音 特征值来设置无关语音概率,并且基于所计算关键词概率和作为预设 值的无关语音概率来确定包含在自然语音中的关键词。
因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。例如,可通过使用组成典型无关语音的元音的语 音特征值或包括多个预设指定语音特征值的多个关键词特征数据的 一部分来计算无关语音概率。因此,有可能减小计算无关语音概率所 需的处理负荷,并以高速度容易地识别包含在自然语音中的关键词。
在本发明的一个方面中,本发明的语音识别被进一步提供有;其 中设置装置包括:指定语音概率计算装置,用于基于提取装置所提取 的自然语音特征值和指定语音特征值来计算指定语音概率,该概率表 示自然语音特征值对应于指定语音特征值的概率;以及无关语音概率 设置装置,用于在所计算指定语音概率的基础上设置无关语音概率。
依照本发明,基于自然语音特征值和指定语音特征值来计算指定 语音概率,并且基于所计算指定语音概率来设置无关语音概率。
因此,如果当通过使用组成典型无关语音的元音的语音特征值或 包括多个预设指定语音特征值的多个关键词特征数据的一部分来计 算指定语音概率并且通过使用包括表示多个指定语音概率的平均的 值的典型语音特征值来计算无关语音概率时,可通过使用小量数据来 计算无关语音概率而无需预设大量无关语音特征数据。因此,有可能 减小计算无关语音概率所需的处理负荷,并以高速度容易地识别包含 在自然语音中的关键词。
在本发明的一个方面中,在指定语音概率计算装置计算多个指定 语音概率的情况下,本发明的语音识别设备被进一步提供有;其中无 关语音概率设置装置设置多个指定语音概率的平均和无关语音概 率。
依照本发明,由指定语音概率计算装置计算的指定语音概率的平 均被设置为无关语音概率。
因此,如果当通过使用组成典型无关语音的元音的语音特征值或 包括多个预设指定语音特征值的多个关键词特征数据的一部分来计 算指定语音概率并且通过使用多个指定语音概率的平均来计算无关 语音概率时,可通过使用小量数据来计算无关语音概率而无需预设大 量无关语音特征数据。因此,有可能减小计算无关语音概率所需的处 理负荷,并以高速度容易地识别包含在自然语音中的关键词。
在本发明的一个方面中,本发明的语音识别设备被进一步提供 有:其中设置装置将数据库中存储的至少一部分关键词特征数据用作 指定语音特征值。
依照本发明,通过将至少一部分所存关键词特征数据用作指定语 音特征值来设置无关语音概率。
因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。因此,有可能减小计算无关语音概率所需的处理 负荷,并以高速度容易地识别包含在自然语音中的关键词。
在本发明的一个方面中,本发明的语音识别设备被进一步提供 有:其中设置装置将表示固定值的预设值设置为无关语音概率。
依照本发明,表示自然语音特征值对应于关键词特征数据的概率 的关键词概率被计算,并且基于所计算的关键词概率和预设无关语音 概率,包含在自然语音中的关键词被确定。
因此,无关语音和关键词可被识别,并且关键词可被确定,而无 需计算包括自然语音特征值和无关语音特征数据的特征值的特性。因 此,有可能减小计算无关语音概率所需的处理负荷,并以高速度容易 地识别包含在自然语音中的关键词。
在本发明的一个方面中,本发明的语音识别设备被进一步提供 有:其中:提取装置通过以预设时间间隔分析自然语音来提取自然语 音特征值,并且由设置装置设置的无关语音概率表示该时间间隔内的 无关语音概率;计算装置基于以所述时间间隔提取的自然语音特征值 来计算关键词概率;并且确定装置基于所述时间间隔内的所计算关键 词概率和无关语音概率来确定包含在自然语音中的关键词。
依照本发明,基于以一个时间间隔计算的关键词概率和无关语音 概率,包含在自然语音中的关键词被确定。
因此,如果当通过使用组成典型无关语音的元音的语音特征值或 包括多个预设指定语音特征值的多个关键词特征数据的一部分来计 算指定语音概率并且通过使用包括表示多个指定语音概率的平均的 值的典型语音特征值来计算无关语音概率时,可基于自然语音中的音 位或其它语音声音来计算关键词概率和无关语音概率,并可通过使用 小量数据来计算无关语音概率而无需预设大量无关语音特征数据。因 此,有可能减小计算无关语音概率所需的处理负荷,并以高速度容易 地识别包含在自然语音中的关键词。
在本发明的一个方面中,本发明的语音识别设备被进一步提供 有:其中确定装置基于在所述时间间隔内的所计算关键词概率和无关 语音概率来计算组合概率,该组合概率表示由存储在数据库中的关键 词特征数据表示的每个关键词和无关语音概率的组合的概率,并且基 于组合概率来确定包含在自然语音中的关键词。
依照本发明,基于在所述时间间隔内的所计算关键词概率和无关 语音概率,表示每个关键词和无关语音的组合的概率的组合概率被计 算,并且包含在自然语音中的关键词基于组合概率而被确定。
因此,通过考虑无关语音和关键词的每个组合,包含在自然语音 中的关键词可被确定。因此,有可能以高速度容易地识别包含在自然 语音中的关键词并防止误识别。
本发明的以上目的可通过本发明的语音识别方法来实现。所发出 的自然语音中包含的至少一个关键词的语音识别方法包括:提取过 程,通过分析自然语音来提取自然语音特征值,该特征值是自然语音 的语音成分的特征值;计算过程,基于从自然语音提取的至少一部分 语音段和在数据库中存储的关键词特征数据来计算关键词概率,该概 率表示自然语音特征值对应于关键词的概率,关键词特征数据表示关 键词的语音成分的特征值;设置过程,在预设值的基础上设置无关语 音概率,该概率表示从自然语音提取的至少一部分语音段对应于无关 语音的概率,无关语音表示非关键词;以及确定过程,基于所计算关 键词概率和作为预设值的无关语音概率来确定包含在自然语音中的 关键词。
依照本发明,表示自然语音特征值对应于关键词特征数据所表示 的关键词的概率的关键词概率被计算,基于预设值的无关语音概率被 设置,并且基于所计算关键词概率和作为预设值的无关语音概率,包 含在自然语音中的关键词被确定。
因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。因此,有可能减小计算无关语音概率所需的处理 负荷,并以高速度容易地识别包含在自然语音中的关键词。
在本发明的一个方面中,本发明的语音识别方法被进一步提供 有;其中设置过程基于提取过程所提取的自然语音特征值和作为预设 值的表示语音成分特征值的多个指定语音特征值来设置无关语音概 率。
依照本发明,基于自然语音特征值和作为预设值的多个指定语音 特征值来设置无关语音概率,并且基于所计算关键词概率和作为预设 值的无关语音概率来确定包含在自然语音中的关键词。
因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。例如,可通过使用组成典型无关语音的元音的语 音特征值或包括多个预设指定语音特征值的多个关键词特征数据的 一部分来计算无关语音概率。因此,有可能减小计算无关语音概率所 需的处理负荷,并以高速度容易地识别包含在自然语音中的关键词。
在本发明的一个方面中,本发明的语音识别设备方法被进一步提 供有:其中设置装置将表示固定值的预设值设置为无关语音概率。
依照本发明,表示自然语音特征值对应于关键词特征数据的概率 的关键词概率被计算,并且基于所计算的关键词概率和预设无关语音 概率,包含在自然语音中的关键词被确定。
因此,无关语音和关键词可被识别,并且关键词可被确定,而无 需计算包括自然语音特征值和无关语音特征数据的特征值的特性。因 此,有可能减小计算无关语音概率所需的处理负荷,并以高速度容易 地识别包含在自然语音中的关键词。
本发明的以上目的可通过本发明的记录介质来实现。记录介质是 记录语音识别程序以由计算机读取的记录介质,该计算机被包括在语 音识别设备中以识别所发出的自然语音中包含的至少一个关键词,所 述程序使计算机起以下作用:提取装置,通过分析自然语音来提取自 然语音特征值,该特征值是自然语音的语音成分的特征值;计算装 置,用于基于从自然语音提取的至少一部分语音段和在数据库中存储 的关键词特征数据来计算关键词概率,该概率表示自然语音特征值对 应于关键词的概率,关键词特征数据表示关键词的语音成分的特征 值;设置装置,用于在预设值的基础上设置无关语音概率,该概率表 示从自然语音提取的至少一部分语音段对应于无关语音的概率,无关 语音表示非关键词;以及确定装置,用于基于所计算关键词概率和作 为预设值的无关语音概率来确定包含在自然语音中的关键词。
依照本发明,表示自然语音特征值对应于关键词特征数据所表示 的关键词的概率的关键词概率被计算,基于预设值的无关语音概率被 设置,并且基于所计算关键词概率和作为预设值的无关语音概率,包 含在自然语音中的关键词被确定。
因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。因此,有可能减小计算无关语音概率所需的处理 负荷,并以高速度容易地识别包含在自然语音中的关键词。
在本发明的一个方面中,语音识别程序使计算机起以下作用;其 中设置装置基于提取装置所提取的自然语音特征值和作为预设值的 表示语音成分特征值的多个指定语音特征值来设置无关语音概率。
依照本发明,基于自然语音特征值和作为预设值的多个指定语音 特征值来设置无关语音概率,并且基于所计算关键词概率和作为预设 值的无关语音概率来确定包含在自然语音中的关键词。
因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。例如,可通过使用组成典型无关语音的元音的语 音特征值或包括多个预设指定语音特征值的多个关键词特征数据的 一部分来计算无关语音概率。因此,有可能减小计算无关语音概率所 需的处理负荷,并以高速度容易地识别包含在自然语音中的关键词。
在本发明的一个方面中,语音识别程序使计算机起以下作用:其 中设置装置将表示固定值的预设值设置为无关语音概率。
依照本发明,表示自然语音特征值对应于关键词特征数据的概率 的关键词概率被计算,并且基于所计算的关键词概率和预设无关语音 概率,包含在自然语音中的关键词被确定。
因此,无关语音和关键词可被识别,并且关键词可被确定,而无 需计算包括自然语音特征值和无关语音特征数据的特征值的特性。因 此,有可能减小计算无关语音概率所需的处理负荷,并以高速度容易 地识别包含在自然语音中的关键词。
附图说明
图1为示出识别网络的基于HMM的语音语言模型的图;
图2为示出依照本发明第一实施例使用词识别的语音识别装置的 示意性配置的方块图;
图3为示出依照第一实施例的关键词识别过程的操作的流程图;
图4为示出用于识别两个关键词的识别网络的基于HMM的语音语 言模型的图;
图5为示出依照本发明第二实施例使用词识别的语音识别装置的 示意性配置的方块图;
图6为示出依照第二实施例的关键词识别过程的操作的流程图; 以及
图7为示出基于Filler模型的识别网络的语音语言模型的图。
具体实施方式
现在将参照附图中所示的优选实施例来描述本发明。
以下所述的实施例是本发明被应用于语音识别设备的实施例。
〔第一实施例〕
图1到4是示出依照本发明的语音识别设备的第一实施例的图。
首先,将参照图1来描述依照本实施例的基于HMM的语音语言模 型。
图1为示出依照本实施例的识别网络的基于HMM的语音语言模型 的图。
本实施例假定了一个表示如图1中所示的基于HMM的识别网络的 模型,即包含待识别的关键词的语音语言模型10。
语音语言模型10由在其两端与表示无关语音分量的无用信息模 型(以下被称为无关语音的分量模型)12a和12b联系的关键词模型 11。在被包含于自然语音中的关键词被识别的情况下,通过匹配关键 词与关键词模型11来识别包含在自然语音中的关键词,并且通过匹 配无关语音与无关语音的分量模型12a和12b来识别包含在自然语音 中的无关语音。
实际上,关键词模型11和无关语音的分量模型12a和12b表示 转变自然语音的每个任意段的一组状态。统计源模型“HMM”组成自 然语音,该统计源模型“HMM”是由稳定源的组合表示的非稳定源。
关键词模型11的HMM(以下被称为关键词HMM)和无关语音分量 模型12a和12b的HMM(以下为称为无关语音分量HMM)具有两个类 型的参数。一个参数是表示从一个状态到另一个状态的状态转变的概 率的状态转变概率,而另一个是输出概率,输出在状态从一个状态到 另一个状态转变时将被观察的向量(每个帧的特征向量)的概率。这 样,关键词模型11的HMM表示每个关键词的特征图型,而无关语音 分量HMM 12a和12b表示每个无关语音分量的特征图型。
通常,由于即使相同的词或音节也因为各种原因而表现出声学上 的变化,因此组成自然语音的语音声音随扬声器而大大变化。然而, 即使由不同的扬声器发出,相同的语音声音亦可通过特性谱包络及其 时间变化来大体表征。这种声学变化的时序序列图型的随机特性可由 HMM精确地表示。
这样,如以下所述,依照本实施例,通过匹配所输入自然语音的 特征值与关键词HMM和无关语音HMM并计算似然性,包含在自然语音 中的关键词被识别。
依照本实施例,HMM是每个关键词的语音成分的特征图型或每个 无关语音分量的语音成分的特征值。此外,HMM是一种概率模型,其 具有表示每个规则时间间隔、每个频率的功率的谱包络数据或从功率 谱算法的逆傅立叶变换获得的倒频谱(cepstrum)数据。
此外,通过采集由多人发出的每个音位的自然语音数据、提取每 个音位的特征图型并基于所提取的音位特征图型来学习每个音位的 特征图型数据,在每个数据库中事先生成并存储HMM。
依照本实施例,多个典型的无关语音分量HMM由无关语音分量模 型12a和12b来表示,并且使用无关语音分量模型12a和12b来执行 匹配。
例如,仅用于元音“a”、“i”、“u”、“e”和“o”的HMM 以及关键词分量HMM(稍后描述)可被用作所述多个典型的无关语音 分量HMM。然后使用这些无关语音分量HMM来执行匹配。
无关语音分量HMM和匹配过程的细节将在稍后描述。
当包含在自然语音中的关键词通过使用这种HMM来识别时,待识 别的自然语音被分为预定持续时间的段,并且每个段被与HMM的每个 预存数据进行匹配,然后从一个状态到另一个状态的这些段的状态转 变的概率基于匹配过程的结果而被计算以识别待识别的关键词。
具体而言,在本实施例中,每个语音段的特征值被与HMM的预存 数据的每个特征图型进行比较;匹配HMM特征图型的每个语音段的特 征值的似然性(对应于依照本发明的关键词概率和无关语音概率)被 计算;基于所计算的似然性和每个语音段的语音特征值与无关语音的 特征值之间的匹配似然性的预设值以及表示所有HMM之间的联系即关 键词和无关语音之间的联系的概率的累计似然性,匹配过程(稍后描 述)被执行,其中似然性的值已在假定给定段包含无关语音的情况下 被预设;并且通过检测有最高似然性的HMM联系,自然语音被识别。
接下来,将参照图2来描述依照本实施例的语音识别装置的配 置。
图2为示出依照本发明使用词识别的语音识别装置的示意性配置 的方块图。
如图2中所示,语音识别装置100包括:用于输入待识别的自然 语音的话筒101;低通滤波器(以下被称为LPF)102;将从话筒101 输出的模拟信号转换为数字信号的模拟/数字转换器(以下被称为A/D 转换器)103;从所输入的语音信号提取对应于语音声音的语音信号 并以预设时间间隔分割帧的输入处理器104;提取每个帧中的语音信 号特征值的语音分析器105;预存表示待识别关键词的特征图型的关 键词HMM和指定语音的HMM(以下被称为指定语音HMM)以便计算稍 后描述的无关语音似然性的HMM模型数据库106;计算所提取的每个 帧的特征值匹配每个所存HMM的似然性的似然性计算器107;基于在 似然性计算器107中计算的似然性来设置表示所提取帧对应于无关语 音的似然性的无关语音似然性的无关语音似然性设置装置108;基于 在逐帧HMM的基础上计算的似然性来执行匹配过程(稍后描述)的匹 配处理器109;以及基于匹配过程的结果来确定包含在自然语音中的 关键词的确定部件110。
输入处理器和语音分析器105被用于本发明的提取装置,而HMM 模型数据库106用作本发明的数据库。
此外,似然性计算器107被用于本发明的计算装置、设置装置、 指定语音概率计算装置和采集装置,而无关语音似然性设置装置108 被用于本发明的设置装置和无关语音概率设置装置。
此外,匹配处理器109和确定部件110被用于本发明的确定装 置。
自然语音在话筒101中被输入,而话筒101基于所输入的自然语 音而产生语音信号并将其输出到LPF 102。
由话筒101产生的语音信号在LPF 102中被输入。LPF 102从所 接收的语音信号中去除谐波分量,并将被去除谐波分量的语音信号输 出到A/D转换器103。
谐波分量已由LPF 102去除的语音信号在A/D转换器103中被输 入。A/D转换器103将所接收的模拟语音信号转换为数字信号,并将 数字语音信号输出到输入处理器104。
数字语音信号在输入处理器104中被输入。输入处理器104从所 输入的数字语音信号中提取表示自然语音的语音段的语音信号的那 些部分,将语音信号的所提取部分分为预定持续时间的帧,并将其输 出给语音分析器105。
输入处理器104将语音信号分为例如10ms到20ms的间隔的帧。
在语音分析器105中,逐帧分析所输入的语音信号,提取每个帧 中的语音信号的特征值,并将其输出到似然性计算器107。
具体而言,语音分析器105在逐帧的基础上将表示以规则时间间 隔、每个频率的功率的谱包络数据或从功率谱算法的逆傅立叶变换获 得的倒频谱数据提取为语音成分的特征值,将所提取的特征值转换为 向量,并将向量输出到似然性计算器107。
HMM模型数据库106预存表示待识别关键词的特征值的图型数据 的关键词HMM和计算无关语音似然性所需的指定语音HMM图型数据。
这些所存的多个关键词HMM的数据表示待识别的多个关键词的特 征值的图型。
例如,如果在安装于汽车的导航系统中被使用,关键词模型数据 库104被设计用于为汽车存储HMM,该HMM表示包括目的地名称或当 前位置名称或设施名称如饭店名称的语音信号的特征值的图型。
如以上所述,依照本实施例,表示每个关键词的语音成分的特征 图型的HMM表示概率模型,其具有表示规则时间间隔、每个频率的功 率的谱包络数据或从功率谱算法的逆傅立叶变换获得的倒频谱数 据。
由于关键词一般由多个音位或音节,如“present location”或 “destination”的情况,依照本实施例,一个关键词HMM由多个关 键词分量HMM组成,而似然性计算器107计算每个关键词分量HMM的 似然性和逐帧特征值。
以这种方式,HMM模型数据库106存储待识别的关键词的每个关 键词HMM,即关键词分量HMM。
此外,HMM模型数据库106将表示组成典型无关语音的元音的语 音特征数据(以下被称为指定语音特征数据)的HMM(以下被称为指 定语音HMM)预存为多个预设的指定语音特征值。
例如,由于即使在无关语音中,每个音节一般也包含元音,因此 HMM模型数据库106存储表示元音“a”、“i”、“u”、“e”和“o” 的语音信号特征值的指定语音HMM。在似然性计算器107中,执行与 这些指定语音HMM的匹配。此外,这些元音“a”、“i”、“u”、“e” 和“o”还表示日语的元音。
每个帧的特征向量在似然性计算器107中被输入,似然性计算器 107比较每个所输入帧的特征值与HMM模型数据库106中存储的关键 词HMM的每个特征值和指定语音特征数据模型(对应于依照本发明的 指定语音特征值)的每个特征值,由此基于所输入帧和每个HMM之间 的匹配来计算似然性,包括帧对应于HMM模型数据库106中存储的每 个关键词HMM或每个指定语音HMM的概率,并且将与指定语音HMM匹 配的所计算似然性输出给无关语音似然性设置装置108,而将与关键 词HMM匹配的所计算似然性输出给匹配处理器109。
具体而言,似然性计算器107在逐帧的基础上计算输出概率。输 出概率包括每个帧对应于每个关键词分量HMM的输出概率和每个帧对 应于指定语音HMM的输出概率。此外,似然性计算器107计算状态转 变概率。状态转变概率包括从任意帧到下一帧的状态转变对应于从关 键词分量HMM到另一个关键词分量HMM或指定语音HMM的状态转变的 概率,以及从任意帧到下一帧的状态转变对应于从指定语音HMM到另 一个指定语音HMM或关键词分量HMM的状态转变的概率。此外,似然 性计算器107将所计算的概率作为似然性输出给无关语音似然性设置 装置108和匹配处理器109。
顺便提及,状态转变概率包括从关键词分量HMM到相同关键词分 量HMM的状态转变以及从指定语音HMM到相同指定语音HMM的状态转 变的概率。
似然性计算器107将为单独帧所计算的输出概率和状态转变概率 输出给无关语音似然性设置装置108和匹配处理器109作为相应帧的 似然性。
在无关语音似然性设置装置108中,输入为单独帧基于指定语音 HMM而计算的输出概率和状态转变概率,无关语音似然性设置装置108 计算所输入的输出概率和状态转变概率的平均,并将所计算的平均输 出给匹配处理器109作为无关语音似然性。
例如,当指定语音HMM表示元音“a”、“i”、“u”、“e”和 “o”的语音信号特征图型时,无关语音似然性设置装置108在逐帧 的基础上为每个元音的HMM而平均输出概率和状态转变概率,并将平 均输出概率和平均状态转变概率作为所述帧的无关语音似然性输出 给匹配处理器109。
在匹配处理器109中,由似然性计算器107和无关语音似然性设 置装置108计算的逐帧输出概率和每个状态转变概率被输入。匹配处 理器109执行匹配过程以基于所输入的每个输出概率和每个状态转变 概率来计算累计似然性(依照本发明的组合概率),该累计似然性是 每个关键词HMM和无关语音成分HMM的每个组合的似然性,并且将所 计算的累计似然性输出给确定部件110。
具体而言,在匹配处理器109中,当假定给定帧包含无关语音时, 从无关语音似然性设置装置108输出的无关语音似然性被用作表示每 个帧中语音分量的特征值与无关语音分量的语音分量特征值之间的 匹配似然性的无关语音似然性。此外,通过在逐帧的基础上累计似然 性计算器107所计算的关键词似然性和无关语音似然性,匹配处理器 109计算用于关键词和无关语音的每个组合的累计似然性。因此,匹 配处理器109为每个关键词计算一个累计似然性(如稍后所述)。
顺便提及,由匹配处理器109执行的匹配过程的细节将在稍后描 述。
在确定部件110中,由匹配处理器109计算的每个关键词的累计 似然性被输入。确定部件110为每个关键词的词长度而归一化所输入 的累计似然性。具体而言,确定部件110基于被用作计算所输入累计 似然性的基础的关键词持续时间来归一化所输入的累计似然性。此 外,确定部件110把有归一化似然性中的最高累计似然性的关键词输 出为包含在自然语音中的关键词。
在做出对关键词的决定时,确定部件110亦单独使用无关语音似 然性的累计似然性。如果单独被使用的无关语音似然性具有最高的累 计似然性,则确定部件110确定在自然语音中不包含关键词并输出该 结论。
接下来,将描述依照实施例由匹配处理器109执行的匹配过程。
依照本实施例的匹配过程使用维特比算法来计算关键词模型和 无关语音分量模型的每个组合的累计似然性。
维特比算法是这样一种算法:其基于进入(enter)每个给定状 态的输出概率和从每个状态到另一个状态的转变概率来计算累计似 然性,然后输出在累计概率之后已被计算累计似然性的组合。
通常,累计似然性首先通过积分(integrate)每个帧的特征值 表示的状态和每个HMM表示的状态的特征值之间的欧几里德距离来计 算,然后通过计算累计距离来计算。
具体而言,维特比算法基于表示从任意状态i到下一个状态j的 转变的路径来计算累计概率,由此提取通过它可发生状态转变的HMM 的每个路径,即联系和组合。
在本实施例中,通过从首先被划分的帧开始到最后被划分的帧结 束一个接一个地、将关键词模型或无关语音分量模型的输出概率和由 此的状态转变概率匹配于所输入自然语音的帧,似然性计算器107和 无关语音似然性计算部分108计算每个输出概率和每个状态转变概 率;从首先被划分的帧到最后被划分的帧,计算关键词模型和无关语 音分量的任意组合的累计似然性;通过每个关键词模型确定在每个关 键词模型/无关语音分量组合中具有最高累计似然性的安排;并将所 确定的关键词模型的累计似然性逐一输出给确定部件110。
例如,在待识别关键词为“present location”和“destination” 而所进入的输入自然语音为“er,present location”的情况下,依 照本实施例的匹配过程执行如下。
在此假定,无关语音为“er”,无关语音似然性已事先设置,关 键词数据库包含“present”和“destination”的每个音节的HMM, 并且由似然性计算器107和无关语音似然性设置装置108计算的每个 输出概率和状态转变概率已在匹配处理器109中被输入。
在此情况下,依照本实施例,维特比算法基于输出概率和状态转 变概率为关键词“present”和“destination”计算关键词和无关语 音分量的每个组合中所有安排的累计似然性。
维特比算法为在此情况下是“present location”和 “destination”的每个关键词从第一帧开始计算自然语音所有帧上 的所有组合图型的累计似然性。
此外,在为每个关键词计算每个安排的累计似然性的过程中,对 于具有低累计似然性的那些安排,维特比算法在中途停止计算,确定 自然语音不匹配那些组合图型。
具体而言,在第一帧中,不是作为关键词“present location” 的关键词分量HMM的“p”的HMM的似然性、就是事先设置的无关语 音的似然性被包括在累计似然性的计算中。在此情况下,较高的累计 似然性提供接下来的累计似然性的计算。
在此情况下,无关语音似然性比“p”的关键词分量HMM的似然 性高,由此对“present#”的累计似然性的计算在“p”之后被终止 (其中*表示无关语音似然性)。
这样,在这种类型的匹配过程中,对关键词“present”和 “destination”的每个仅计算了一个累计似然性。
接下来,将参照图3来描述依照本实施例的关键词识别过程。
图3是示出依照本实施例的关键词识别过程的操作的流程图。
首先,当控制面板或控制器(未示出)命令每个部件开始关键词 识别过程并且自然语音进入话筒101(步骤S11)时,自然语音通过 LPF 102和A/D转换器103被输入,并且输入处理器104从所输入的 语音信号提取自然语音的语音信号(步骤S12)。接下来,输入处理 器104将所提取的语音信号分为预定持续时间的帧,并从第一帧开始 在逐帧的基础上将语音信号输出给语音分析器105(步骤S13)。
然后,在该关键词识别过程中,以下过程是在逐帧的基础上进行 的。
首先,控制器(未示出)判断语音分析器105中输入的帧是否为 最后的帧(步骤S14)。如果是,流程转到步骤S20。另一方面,如 果所述帧不是最后一个,进行以下过程。
然后,语音分析器105提取所接收帧中的语音信号的特征值,并 将其输出给似然性计算器107(步骤S15)。
具体而言,基于每个帧中的语音信号,语音分析器105将表示规 则时间间隔、每个频率的谱包络信息或从功率谱算法的逆傅立叶变换 获得的倒频谱信息提取为语音成分的特征值,将所提取的特征值转换 为向量,并将向量输出给似然性计算器107。
接下来,似然性计算器107比较帧的所输入特征值与在HMM模型 数据库106中存储的关键词HMM和指定语音HMM的特征值,为每个HMM 计算帧的输出概率和状态转变概率,并将用于指定语音HMM的输出概 率和状态转变概率输出给无关语音似然性设置装置108,而将用于关 键词HMM匹配的输出概率和状态转变概率输出给匹配处理器109(步 骤S16)。
接下来,无关语音似然性设置装置108基于用于指定语音HMM的 所输入的输出概率和所输入的状态转变概率来设置无关语音似然性 (步骤S17)。
例如,当指定语音HMM表示元音“a”、“i”、“u”、“e”和 “o”的语音信号特征图型时,无关语音似然性设置装置108在逐帧 的基础上平均基于每个帧的特征值和每个元音的HMM而计算的输出概 率和状态转变概率,并将平均输出概率和平均状态转变概率作为所述 帧的无关语音似然性输出给匹配处理器109。
接下来,基于由似然性计算器107计算的输出概率和状态转变概 率以及由无关语音似然性设置装置108计算的的输出概率和状态转变 概率,匹配处理器109执行匹配过程(以上所述)并计算每个关键词 的累计似然性(步骤S18)。
具体而言,通过将关键词HMM的所输入累计似然性和无关语音似 然性加给在此以前计算的累计似然性,匹配处理器109积分每个关键 词的似然性,但最终仅计算每个关键词的最高累计似然性。
接下来,在控制器(未示出)的命令下,匹配处理器109控制接 下来帧的输入(步骤S19)并返回步骤S14。
另一方面,如果控制器(未示出)判断给定帧是最后的帧,则每 个关键词的最高累计似然性被输出给确定部件110,然后该确定装置 为每个关键词的词长度而归一化累计似然性(步骤S20)。
最后,基于每个关键词的归一化累计似然性,确定部件110把有 最高累计似然性的关键词输出为包含在自然语音中的关键词(步骤 S21)。由此结束操作。
这样,依照本实施例,由于自然语音特征值和语音段的每个帧的 关键词特征数据之间匹配的似然性被计算,无关语音似然性基于指定 语音特征数据如元音而被设置,并且包含在自然语音中的关键词基于 这些似然性而被确定,因此可通过使用小量数据来计算无关语音似然 性,而无需预设在常规上计算无关语音概率所需的大量无关语音特征 数据。因此,在本实施例中,计算无关语音似然性所需的处理负荷可 被减小。
此外,在本实施例中,由于无关语音似然性和所计算似然性的每 个组合的累计似然性是通过累计无关语音似然性和每个所计算似然 性来计算的,并且包含在自然语音中的关键词是基于所计算的累计似 然性来确定的,因此可基于无关语音似然性和每个所计算似然性的每 个组合来确定包含在自然语音中的关键词。
因此,有可能以高速度容易地识别自然语音中包含的关键词并防 止误识别。
此外,在本实施例中,当识别包含在自然语音中的两个或多个关 键词时,有可能以较高的速度较容易地识别包含在自然语音中的关键 词并防止误识别。
例如,当使用如图4中所示的基于HMM的语音语言模型20来识 别两个关键词时,如果在待识别的关键词模型中的词长度被归一化, 则两个关键词可同时被识别。
具体而言,取代在匹配处理器109中计算每个关键词的累计似然 性,如果匹配处理器109计算包含在HMM模型数据库106中包含的关 键词的每个组合的累计似然性,并且确定部件110通过相加所有关键 词的词长度来归一化词长度,则有可能同时识别两个或多个关键词, 以高速度容易地识别包含在自然语音中的关键词,并防止误识别。
顺便提及,尽管仅用于元音“a”、“i”、“u”、“e”和“o” 的指定语音HMM在本实施例中被使用,上述关键词分量HMM亦可被用 作指定语音HMM并与以上元音的关键词分量HMM进行匹配。
在此情况下,似然性计算器107为每个所输入帧和每个关键词分 量HMM计算输出概率和状态转变概率,并将概率的每个计算值输出给 无关语音似然性设置装置108。然后,无关语音似然性设置装置108 计算高(例如,前5个)输出概率和状态转变概率的平均,并将所计 算的平均输出概率和平均状态转变概率作为无关语音似然性输出给 匹配处理器109。
因此,同以上情况一样,由于可通过使用小量数据来设置无关语 音概率,而无需预设在常规上计算无关语音似然性所需的大量无关语 音特征数据,因此有可能减小计算无关语音概率所需的处理负荷并以 高速度容易地识别包含在自然语音中的关键词。
此外,尽管关键词识别过程是由依照本实施例的语音识别装置来 执行的,语音识别装置可被配备有计算机和记录介质,而类似的关键 词识别过程可在计算机读取记录介质上存储的关键词识别程序时被 执行。
在此,DVD或CD可被用作记录介质,而语音识别装置可被配备有 用于从记录介质读取程序的读取器。
〔第二实施例〕
图5到6是示出依照本发明第二实施例的语音识别装置的图。
在本实施例中,取代在第一实施例中基于关键词HMM和表示无关 语音似然性的指定语音HMM来识别关键词,关键词是基于关键词HMM 和表示无关语音似然性的预定固定值来识别的。
具体而言,依照本实施例,对于每个关键词,关键词模型和无关 语音似然性的每个组合的累计似然性是基于无关语音似然性输出概 率和状态转变概率来计算的,并且匹配过程是通过使用维特比算法来 执行的。
例如,为识别作为任意自然语音中的关键词的“present”和 “destination”,通过基于无关语音似然性、输出概率和状态转变 概率计算所有以下安排的累计似然性来执行匹配过程:“present”、 “#present”、“present#”和“#present#”以及“destination”、 “#destination”、“destination#”和“#destination#”(其中 #表示无关语音似然性的固定值)。
在其它方面,本实施例的配置类似于第一实施例,除了基于关键 词HMM和预定固定值来识别关键词。
如图5中所示,语音识别装置200包括:话筒101;LPF 102; A/D转换器103;输入处理器104;语音分析器105;预存表示待识别 关键词的特征图型的关键词HMM的关键词模型数据库201;计算所提 取的每个帧的特征值匹配关键词HMM的似然性的似然性计算器202; 基于与每个关键词HMM匹配的所计算逐帧似然性和不构成任何关键词 的无关语音的预设似然性来执行匹配过程的匹配处理器203;以及确 定部件110。
输入处理器104和语音分析器105用作本发明的提取装置,而关 键词模型数据库201用作本发明的第一数据库。
此外,似然性计算器202用作本发明的计算装置和第一采集装 置,匹配处理器108用作第二数据库、第二采集装置和确定装置,而 确定装置109用作本发明的确定装置。
关键词模型数据库201预存表示待识别关键词的特征图型数据的 关键词HMM。所存的关键词HMM表示待识别的相应关键词的特征图 型。
例如,如果在安装于汽车的导航系统中被使用,关键词模型数据 库201被设计用于为汽车存储HMM,该HMM表示包括目的地名称或当 前位置名称或设施名称如饭店名称的语音信号的特征值的图型。
如以上所述,依照本实施例,表示每个关键词的语音成分的特征 图型的HMM表示一种概率模型,其具有表示规则时间间隔、每个频率 的功率的谱包络数据或从功率谱算法的逆傅立叶变换获得的倒频谱 数据。
由于关键词一般由多个音位或音节,如“present location”或 “destination”的情况,依照本实施例,一个关键词HMM由多个关 键词分量HMM组成,而似然性计算器202逐帧计算特征值和每个关键 词分量HMM的似然性。
以这种方式,关键词模型数据库201存储待识别的关键词的每个 关键词HMM,即关键词分量HMM。
在似然性计算器202中,每个帧的特征向量被输入,并且似然性 计算器202通过基于每个帧的所输入特征向量在每个帧的每个所输入 HMM和每个数据库中存储的HMM的每个特征值之间进行匹配来计算似 然性,并且将所计算的似然性输出给匹配处理器203。
依照本实施例,似然性计算器202基于每个帧的特征值和关键词 模型数据库201中存储的HMM的特征值来计算概率,其包括每个帧对 应于关键词模型数据库201中存储的每个HMM的概率。
具体而言,似然性计算器202计算表示每个帧对应于每个关键词 分量HMM的概率的概率。此外,它还计算状态转变概率,该状态转变 概率表示从任意帧到下一帧的状态转变对应于从关键词分量HMM到另 一个关键词分量HMM的状态转变的概率。然后,似然性计算器202将 所计算的概率作为似然性输出给匹配处理器108。
顺便提及,状态转变概率包括从每个关键词分量HMM到相同关键 词分量HMM的状态转变的状态转变概率。
似然性计算器202将为每个帧所计算的输出概率和状态转变概率 作为帧的似然性输出给匹配处理器203。
在匹配处理器203中,由似然性计算器202计算的逐帧输出概率 和状态转变概率被输入。匹配处理器203执行匹配过程以基于所输入 的输出概率、所输入的输出状态转变概率和无关语音似然性来计算累 计似然性,该累计似然性是关键词HMM和无关语音似然性的每个组合 的似然性,并且将累计似然性输出给确定部件110。
具体而言,匹配处理器203预存表示无关语音似然性的输出概率 和状态转变概率。当假定给定帧是无关语音分量的帧时,该无关语音 似然性表示每个帧中自然语音所包含的语音分量的特征值与无关语 音的语音分量特征值之间的匹配。此外,通过在逐帧的基础上累计似 然性计算器202所计算的关键词似然性和无关语音似然性,匹配处理 器203计算用于关键词和无关语音的每个组合的累计似然性。因此, 匹配处理器203计算每个关键词的累计似然性(如稍后所述)以及没 有关键词的累计似然性。
接下来,将参照图6来描述依照本实施例的关键词识别过程。
图6是示出依照本实施例的关键词识别过程的操作的流程图。
首先,当控制面板或控制器(未示出)命令每个部件开始关键词 识别过程并且自然语音进入话筒101(步骤S31)时,自然语音通过 LPF 102和A/D转换器103被输入,并且输入处理器104从所输入的 语音信号提取自然语音的语音信号(步骤S32)。接下来,输入处理 器104将所提取的语音信号分为预定持续时间的帧,并从第一帧开始 在逐帧的基础上将语音信号输出给语音分析器105(步骤S33)。
然后,在该关键词识别过程中,以下过程是在逐帧的基础上进行 的。
首先,控制器(未示出)判断语音分析器105中输入的帧是否为 最后的帧(步骤S34)。如果是,流程转到步骤S39。另一方面,如 果所述帧不是最后一个,进行以下过程。
然后,语音分析器105提取所接收帧中的语音信号的特征值,并 将其输出给似然性计算器202(步骤S35)。
具体而言,基于每个帧中的语音信号,语音分析器105将表示规 则时间间隔、每个频率的谱包络信息或从功率谱算法的逆傅立叶变换 获得的倒频谱信息提取为语音成分的特征值,将所提取的特征值转换 为向量,并将向量输出给似然性计算器202。
然后,似然性计算器202比较帧的所输入特征值与在关键词模型 数据库201中存储的HMM的特征值,为每个HMM计算帧的输出概率和 状态转变概率,并将其输出给匹配处理器203(步骤S36)。
接下来,基于由似然性计算器202计算的输出概率和状态转变概 率以及在匹配处理器203中存储的预设无关语音似然性,匹配处理器 203执行匹配过程(以上所述)并计算每个关键词的累计似然性(步 骤S37)。
具体而言,通过将关键词HMM的所输入累计似然性和无关语音似 然性加给在此以前计算的累计似然性,匹配处理器203积分每个关键 词的似然性,但最终仅计算每个关键词的最高累计似然性。
接下来,在控制器(未示出)的命令下,匹配处理器203控制接 下来帧的输入(步骤S38)并返回步骤S34。
另一方面,如果控制器(未示出)判断给定帧是最后的帧,则每 个关键词的最高累计似然性被输出给确定部件110,然后该确定装置 为每个关键词的词长度而归一化累计似然性(步骤S39)。
最后,基于每个关键词的归一化累计似然性,确定部件110把有 最高累计似然性的关键词输出为包含在自然语音中的关键词(步骤 S40)。由此结束操作。
这样,依照本实施例,由于自然语音特征值和语音段的每个帧的 关键词特征数据之间匹配的似然性被计算,并且包含在自然语音中的 关键词基于所计算的似然性和预设无关语音似然性而被确定,因此可 无需计算无关语音似然性而确定包含在自然语音中的关键词。
此外,在本实施例中,由于无关语音似然性和所计算似然性的每 个组合的累计似然性是通过累计无关语音似然性和每个所计算似然 性来计算的,并且包含在自然语音中的关键词是基于所计算的累计似 然性来确定的,因此可基于无关语音似然性和每个所计算似然性的每 个组合来确定包含在自然语音中的关键词。
因此,有可能以高速度容易地识别自然语音中包含的关键词并防 止误识别。
此外,在本实施例中,当识别包含在自然语音中的两个或多个关 键词时,有可能以较高的速度较容易地识别包含在自然语音中的关键 词并防止误识别。
例如,当使用如图4中所示的基于HMM的语音语言模型20来识 别两个关键词时,如果在待识别的关键词模型中的词长度被归一化, 则两个关键词可同时被识别。
具体而言,取代在匹配处理器203中计算每个关键词的累计似然 性,如果匹配处理器203计算包含在关键词模型数据库201中包含的 关键词的每个组合的累计似然性,并且确定部件110通过相加所有关 键词的词长度来归一化词长度,则有可能同时识别两个或多个关键 词,以高速度容易地识别包含在自然语音中的关键词,并防止误识 别。
此外,尽管关键词识别过程是由依照本实施例的语音识别装置来 执行的,语音识别装置可被配备有计算机和记录介质,而类似的关键 词识别过程可在计算机读取记录介质上存储的关键词识别程序时被 执行。
在此,DVD或CD可被用作记录介质,而语音识别装置可被配备有 用于从记录介质读取程序的读取器。
本发明可被实施以其它特定形式而无需背离其精神或基本特 性。因此,给出的实施例应在各方面被认为是说明性的而非局限性 的,因此,由所附的权利要求而不是以上描述表示的本发明范围以及 在权利要求等效范围和意义的范围内所有变化欲在此被包含。
法律信息
- 2009-08-05
专利权的终止(未缴年费专利权终止)
专利权的终止(未缴年费专利权终止)授权公告日:2006.10.25
- 2006-10-25
- 2004-03-03
- 2003-12-24
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |