1.一种用于识别所发出自然语音中包含的至少一个关键词的语 音识别设备,特征在于所述设备包括:
提取装置(104、105),用于通过分析自然语音来提取自然语音 的特征值,该特征值是自然语音的语音成分的特征值;
数据库(106、201),用于存储关键词特征数据,该特征数据表 示关键词语音成分的特征值;
计算装置(107、202),用于基于从自然语音提取的至少一部分 语音段和在所述数据库(106、201)中存储的关键词特征数据来计算 关键词概率,该概率表示所述自然语音特征值对应于所述关键词的概 率;
设置装置(107、108、202),用于在所述提取装置(104、105) 所提取的所述被提取的自然语音特征值和多个指定语音特征值的基 础上,设置无关语音概率,该概率表示从自然语音提取的至少一部分 语音段对应于表示非关键词的无关语音的概率;以及
确定装置(109、110、203),用于基于所计算关键词概率和作 为预设值的无关语音概率来确定包含在自然语音中的所述关键词。
2.依照权利要求1的语音识别设备,其中所述指定语音特征值表 示元音的特征。
3.依照权利要求2的语音识别设备,其中设置装置(107、108) 包括:
指定语音概率计算装置(107),用于基于所述提取装置(104、 105)所提取的所述自然语音的语音成分的特征值和所述指定语音特 征值来计算指定语音概率,该概率表示所述自然语音特征值对应于所 述指定语音特征值的概率;以及
无关语音概率设置装置(108),用于在所计算指定语音概率的基 础上设置所述无关语音概率。
4.依照权利要求3的语音识别设备,在所述指定语音概率计算装 置(107)计算多个指定语音概率的情况下,其中
所述无关语音概率设置装置(108)计算被输入的输出概率和状态 转变概率的平均,并向所述确定装置(109)输出所计算的平均作为 无关语音概率。
5.依照权利要求2到4中任何一项的语音识别设备,其中所述设 置装置(107、108)将所述数据库(106)中存储的至少一部分关键 词特征数据用作指定语音特征值。
6.依照权利要求1的语音识别设备,其中所述设置装置(202) 将表示固定值的预设值设置为所述无关语音概率。
7.依照权利要求1的语音识别设备,其中:
所述提取装置(104、105)通过以预设时间间隔分析自然语音来 提取所述自然语音特征值,并且由所述设置装置(107、108、202) 设置的无关语音概率表示该时间间隔内的无关语音概率;
所述计算装置(107、202)基于以所述时间间隔提取的所述自然 语音特征值来计算关键词概率;并且
所述确定装置(109、110、203)基于所述时间间隔内的所计算 关键词概率和无关语音概率来确定包含在自然语音中的关键词。
8.依照权利要求7的语音识别设备,其中所述确定装置(109、 110、203)基于在所述时间间隔内的所计算关键词概率和无关语音概 率来计算组合概率,该组合概率表示由存储在所述数据库(106、201) 中的关键词特征数据表示的每个关键词和无关语音概率的组合的概 率,并且基于组合概率来确定包含在自然语音中的关键词。
9.一种识别所发出的自然语音中包含的至少一个关键词的语音 识别方法,特征在于所述方法包括:
提取过程,通过分析自然语音来提取自然语音特征值,该特征值 是自然语音的语音段的特征值;
计算过程,基于从自然语音提取的至少一部分语音段和在数据库 (106、201)中存储的关键词特征数据来计算关键词概率,该概率表 示所述自然语音特征值对应于所述关键词的概率,所述关键词特征数 据表示关键词的语音段的特征值;
设置过程,用于在所述提取过程所提取的所述被提取的自然语音 特征值和多个指定语音特征值的基础上,设置无关语音概率,该概率 表示从自然语音提取的至少一部分语音段对应于表示非关键词的无 关语音的概率;以及
确定过程,基于所计算关键词概率和作为预设值的无关语音概率 来确定包含在自然语音中的关键词。
10.依照权利要求9的语音识别方法,其中所述指定语音特征值 表示元音的特征。
11.依照权利要求9的语音识别方法,其中所述设置过程将表示 固定值的预设值设置为所述无关语音概率。
技术领域\n本发明涉及有关通过HMM(隐马尔可夫模型)方法进行语音识别 的技术领域,具体而言,涉及有关识别出自自然语音的关键词的技术 领域。\n背景技术\n近些年来,已开发了识别人发出的自然语音的语音识别设备。当 人说出预定词时,这些装置从其输入信号来识别所说的词。\n例如,被配备有这种语音识别设备的各种装置,如安装在车辆中 用于引导车辆移动的导航系统和个人计算机,将允许用户输入各种信 息而无需手动的键盘或开关选择操作。\n因此,例如,即使在操作者正用他/她的双手驾驶车辆的工作环 境中,操作者亦可在导航系统中输入所需信息。\n典型的语音识别方法包括采用被称为HMM(隐马尔可夫模型)的 概率模型的方法。\n在语音识别中,通过将自然语音的特征值图型与表示被称为关键 词的候选词并事先被准备的语音的特征值图型进行匹配,自然语音被 识别。\n具体而言,在语音识别中,被分为预定持续时间段的所输入自然 语音(输入信号)的特征值通过分析所输入自然语音而被提取,输入 信号特征值和由预存在数据库中的HMM表示的关键词的特征值之间的 匹配程度(以下被称为似然性)被计算,整个自然语音过程中的似然 性被累计,并且有最高似然性的关键词被确定为所识别的关键词。\n这样,在语音识别中,关键词在由人所发出自然语音的输入信号 的基础上被识别。\n顺便提及,HMM是被表示为一组转变状态的统计源模型。它表示 待识别预定语音如关键词的特征值。此外,HMM是在事先采样的多个 语音数据的基础上被生成的。\n对于这种语音识别,重要的是如何提取包含在自然语音中的关键 词。\n除关键词以外,自然语音通常还包含无关语音(extraneous speech),即在识别中不必要的先前已知词(诸如关键词之前和之后 的“er”或“please”的词),并且在原则上,自然语音由无关语音 所夹的关键词组成。\n在常规上,语音识别常常采用“词识别”技术来识别待被语音识 别的关键词。\n在词识别技术中,不仅表示关键词模型而且表示无关语音模型 (以下被称为无用信息模型(garbage model))的HMM被准备,并 且通过识别其特征值具有最高似然性的关键词模型、无用信息模型或 其组合,自然语音被识别。\n这样,词识别技术基于所累计的似然性来识别其特征值具有最高 似然性的关键词模型、无用信息模型或其组合,并将包含在自然语音 中的任何关键词输出为所识别关键词。\n在基于词识别的语音识别中,被称为Filler模型的概率模型可 被用于构建无关语音模型。\n如图7中所示,为建立整个语音的模型,Filler模型表示通过网 络的元音和辅音的所有可能联系。对于词识别,每个关键词模型需要 在两端与Filler模型联系。\n具体而言,基于Filler模型的语音识别涉及计算所有可识别图 型,即待识别的自然语音的特征值和每个音位的特征值之间的每个匹 配,由此计算自然语音中的音位之间的联系,并使用形成联系的路径 中的路径的最佳图型来识别无关语音。\n发明内容\n这种语音识别装置执行自然语音特征值和无关语音所有可能分 量如音位的特征数据之间的匹配,从而识别无关语音。因此,其涉及 大量的计算工作,从而导致大的计算负荷。\n本发明已考虑到以上问题。其目的是提供一种语音识别装置,该 装置通过减小在匹配过程中计算似然性所需的计算工作,从而以高速 度正确地执行语音识别。\n本发明的以上目的可通过本发明的语音识别设备来实现。用于识 别所发出自然语音中包含的至少一个关键词的语音识别设备包括:提 取装置,用于通过分析自然语音来提取自然语音的特征值,该特征值 是自然语音的语音成分的特征值;数据库,用于存储关键词特征数 据,该特征数据表示关键词语音成分的特征值;计算装置,用于基于 从自然语音提取的至少一部分语音段和在数据库中存储的关键词特 征数据来计算关键词概率,该概率表示自然语音特征值对应于关键词 的概率;设置装置,用于在预设值的基础上设置无关语音概率,该概 率表示从自然语音提取的至少一部分语音段对应于无关语音的概 率,无关语音表示非关键词;以及确定装置,用于基于所计算关键词 概率和作为预设值的无关语音概率来确定包含在自然语音中的关键 词。\n依照本发明,表示自然语音特征值对应于关键词特征数据所表示 的关键词的概率的关键词概率被计算,基于预设值的无关语音概率被 设置,并且基于所计算关键词概率和作为预设值的无关语音概率,包 含在自然语音中的关键词被确定。\n因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。因此,有可能减小计算无关语音概率所需的处理 负荷,并以高速度容易地识别包含在自然语音中的关键词。\n在本发明的一个方面中,本发明的语音识别设备被进一步提供 有;其中设置装置基于提取装置所提取的自然语音特征值和作为预设 值的表示语音成分特征值的多个指定语音特征值来设置无关语音概 率。\n依照本发明,基于自然语音特征值和作为预设值的多个指定语音 特征值来设置无关语音概率,并且基于所计算关键词概率和作为预设 值的无关语音概率来确定包含在自然语音中的关键词。\n因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。例如,可通过使用组成典型无关语音的元音的语 音特征值或包括多个预设指定语音特征值的多个关键词特征数据的 一部分来计算无关语音概率。因此,有可能减小计算无关语音概率所 需的处理负荷,并以高速度容易地识别包含在自然语音中的关键词。\n在本发明的一个方面中,本发明的语音识别被进一步提供有;其 中设置装置包括:指定语音概率计算装置,用于基于提取装置所提取 的自然语音特征值和指定语音特征值来计算指定语音概率,该概率表 示自然语音特征值对应于指定语音特征值的概率;以及无关语音概率 设置装置,用于在所计算指定语音概率的基础上设置无关语音概率。\n依照本发明,基于自然语音特征值和指定语音特征值来计算指定 语音概率,并且基于所计算指定语音概率来设置无关语音概率。\n因此,如果当通过使用组成典型无关语音的元音的语音特征值或 包括多个预设指定语音特征值的多个关键词特征数据的一部分来计 算指定语音概率并且通过使用包括表示多个指定语音概率的平均的 值的典型语音特征值来计算无关语音概率时,可通过使用小量数据来 计算无关语音概率而无需预设大量无关语音特征数据。因此,有可能 减小计算无关语音概率所需的处理负荷,并以高速度容易地识别包含 在自然语音中的关键词。\n在本发明的一个方面中,在指定语音概率计算装置计算多个指定 语音概率的情况下,本发明的语音识别设备被进一步提供有;其中无 关语音概率设置装置设置多个指定语音概率的平均和无关语音概 率。\n依照本发明,由指定语音概率计算装置计算的指定语音概率的平 均被设置为无关语音概率。\n因此,如果当通过使用组成典型无关语音的元音的语音特征值或 包括多个预设指定语音特征值的多个关键词特征数据的一部分来计 算指定语音概率并且通过使用多个指定语音概率的平均来计算无关 语音概率时,可通过使用小量数据来计算无关语音概率而无需预设大 量无关语音特征数据。因此,有可能减小计算无关语音概率所需的处 理负荷,并以高速度容易地识别包含在自然语音中的关键词。\n在本发明的一个方面中,本发明的语音识别设备被进一步提供 有:其中设置装置将数据库中存储的至少一部分关键词特征数据用作 指定语音特征值。\n依照本发明,通过将至少一部分所存关键词特征数据用作指定语 音特征值来设置无关语音概率。\n因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。因此,有可能减小计算无关语音概率所需的处理 负荷,并以高速度容易地识别包含在自然语音中的关键词。\n在本发明的一个方面中,本发明的语音识别设备被进一步提供 有:其中设置装置将表示固定值的预设值设置为无关语音概率。\n依照本发明,表示自然语音特征值对应于关键词特征数据的概率 的关键词概率被计算,并且基于所计算的关键词概率和预设无关语音 概率,包含在自然语音中的关键词被确定。\n因此,无关语音和关键词可被识别,并且关键词可被确定,而无 需计算包括自然语音特征值和无关语音特征数据的特征值的特性。因 此,有可能减小计算无关语音概率所需的处理负荷,并以高速度容易 地识别包含在自然语音中的关键词。\n在本发明的一个方面中,本发明的语音识别设备被进一步提供 有:其中:提取装置通过以预设时间间隔分析自然语音来提取自然语 音特征值,并且由设置装置设置的无关语音概率表示该时间间隔内的 无关语音概率;计算装置基于以所述时间间隔提取的自然语音特征值 来计算关键词概率;并且确定装置基于所述时间间隔内的所计算关键 词概率和无关语音概率来确定包含在自然语音中的关键词。\n依照本发明,基于以一个时间间隔计算的关键词概率和无关语音 概率,包含在自然语音中的关键词被确定。\n因此,如果当通过使用组成典型无关语音的元音的语音特征值或 包括多个预设指定语音特征值的多个关键词特征数据的一部分来计 算指定语音概率并且通过使用包括表示多个指定语音概率的平均的 值的典型语音特征值来计算无关语音概率时,可基于自然语音中的音 位或其它语音声音来计算关键词概率和无关语音概率,并可通过使用 小量数据来计算无关语音概率而无需预设大量无关语音特征数据。因 此,有可能减小计算无关语音概率所需的处理负荷,并以高速度容易 地识别包含在自然语音中的关键词。\n在本发明的一个方面中,本发明的语音识别设备被进一步提供 有:其中确定装置基于在所述时间间隔内的所计算关键词概率和无关 语音概率来计算组合概率,该组合概率表示由存储在数据库中的关键 词特征数据表示的每个关键词和无关语音概率的组合的概率,并且基 于组合概率来确定包含在自然语音中的关键词。\n依照本发明,基于在所述时间间隔内的所计算关键词概率和无关 语音概率,表示每个关键词和无关语音的组合的概率的组合概率被计 算,并且包含在自然语音中的关键词基于组合概率而被确定。\n因此,通过考虑无关语音和关键词的每个组合,包含在自然语音 中的关键词可被确定。因此,有可能以高速度容易地识别包含在自然 语音中的关键词并防止误识别。\n本发明的以上目的可通过本发明的语音识别方法来实现。所发出 的自然语音中包含的至少一个关键词的语音识别方法包括:提取过 程,通过分析自然语音来提取自然语音特征值,该特征值是自然语音 的语音成分的特征值;计算过程,基于从自然语音提取的至少一部分 语音段和在数据库中存储的关键词特征数据来计算关键词概率,该概 率表示自然语音特征值对应于关键词的概率,关键词特征数据表示关 键词的语音成分的特征值;设置过程,在预设值的基础上设置无关语 音概率,该概率表示从自然语音提取的至少一部分语音段对应于无关 语音的概率,无关语音表示非关键词;以及确定过程,基于所计算关 键词概率和作为预设值的无关语音概率来确定包含在自然语音中的 关键词。\n依照本发明,表示自然语音特征值对应于关键词特征数据所表示 的关键词的概率的关键词概率被计算,基于预设值的无关语音概率被 设置,并且基于所计算关键词概率和作为预设值的无关语音概率,包 含在自然语音中的关键词被确定。\n因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。因此,有可能减小计算无关语音概率所需的处理 负荷,并以高速度容易地识别包含在自然语音中的关键词。\n在本发明的一个方面中,本发明的语音识别方法被进一步提供 有;其中设置过程基于提取过程所提取的自然语音特征值和作为预设 值的表示语音成分特征值的多个指定语音特征值来设置无关语音概 率。\n依照本发明,基于自然语音特征值和作为预设值的多个指定语音 特征值来设置无关语音概率,并且基于所计算关键词概率和作为预设 值的无关语音概率来确定包含在自然语音中的关键词。\n因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。例如,可通过使用组成典型无关语音的元音的语 音特征值或包括多个预设指定语音特征值的多个关键词特征数据的 一部分来计算无关语音概率。因此,有可能减小计算无关语音概率所 需的处理负荷,并以高速度容易地识别包含在自然语音中的关键词。\n在本发明的一个方面中,本发明的语音识别设备方法被进一步提 供有:其中设置装置将表示固定值的预设值设置为无关语音概率。\n依照本发明,表示自然语音特征值对应于关键词特征数据的概率 的关键词概率被计算,并且基于所计算的关键词概率和预设无关语音 概率,包含在自然语音中的关键词被确定。\n因此,无关语音和关键词可被识别,并且关键词可被确定,而无 需计算包括自然语音特征值和无关语音特征数据的特征值的特性。因 此,有可能减小计算无关语音概率所需的处理负荷,并以高速度容易 地识别包含在自然语音中的关键词。\n本发明的以上目的可通过本发明的记录介质来实现。记录介质是 记录语音识别程序以由计算机读取的记录介质,该计算机被包括在语 音识别设备中以识别所发出的自然语音中包含的至少一个关键词,所 述程序使计算机起以下作用:提取装置,通过分析自然语音来提取自 然语音特征值,该特征值是自然语音的语音成分的特征值;计算装 置,用于基于从自然语音提取的至少一部分语音段和在数据库中存储 的关键词特征数据来计算关键词概率,该概率表示自然语音特征值对 应于关键词的概率,关键词特征数据表示关键词的语音成分的特征 值;设置装置,用于在预设值的基础上设置无关语音概率,该概率表 示从自然语音提取的至少一部分语音段对应于无关语音的概率,无关 语音表示非关键词;以及确定装置,用于基于所计算关键词概率和作 为预设值的无关语音概率来确定包含在自然语音中的关键词。\n依照本发明,表示自然语音特征值对应于关键词特征数据所表示 的关键词的概率的关键词概率被计算,基于预设值的无关语音概率被 设置,并且基于所计算关键词概率和作为预设值的无关语音概率,包 含在自然语音中的关键词被确定。\n因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。因此,有可能减小计算无关语音概率所需的处理 负荷,并以高速度容易地识别包含在自然语音中的关键词。\n在本发明的一个方面中,语音识别程序使计算机起以下作用;其 中设置装置基于提取装置所提取的自然语音特征值和作为预设值的 表示语音成分特征值的多个指定语音特征值来设置无关语音概率。\n依照本发明,基于自然语音特征值和作为预设值的多个指定语音 特征值来设置无关语音概率,并且基于所计算关键词概率和作为预设 值的无关语音概率来确定包含在自然语音中的关键词。\n因此,可通过使用小量数据来计算无关语音概率而无需预设大量 无关语音特征数据。例如,可通过使用组成典型无关语音的元音的语 音特征值或包括多个预设指定语音特征值的多个关键词特征数据的 一部分来计算无关语音概率。因此,有可能减小计算无关语音概率所 需的处理负荷,并以高速度容易地识别包含在自然语音中的关键词。\n在本发明的一个方面中,语音识别程序使计算机起以下作用:其 中设置装置将表示固定值的预设值设置为无关语音概率。\n依照本发明,表示自然语音特征值对应于关键词特征数据的概率 的关键词概率被计算,并且基于所计算的关键词概率和预设无关语音 概率,包含在自然语音中的关键词被确定。\n因此,无关语音和关键词可被识别,并且关键词可被确定,而无 需计算包括自然语音特征值和无关语音特征数据的特征值的特性。因 此,有可能减小计算无关语音概率所需的处理负荷,并以高速度容易 地识别包含在自然语音中的关键词。\n附图说明\n图1为示出识别网络的基于HMM的语音语言模型的图;\n图2为示出依照本发明第一实施例使用词识别的语音识别装置的 示意性配置的方块图;\n图3为示出依照第一实施例的关键词识别过程的操作的流程图;\n图4为示出用于识别两个关键词的识别网络的基于HMM的语音语 言模型的图;\n图5为示出依照本发明第二实施例使用词识别的语音识别装置的 示意性配置的方块图;\n图6为示出依照第二实施例的关键词识别过程的操作的流程图; 以及\n图7为示出基于Filler模型的识别网络的语音语言模型的图。\n具体实施方式\n现在将参照附图中所示的优选实施例来描述本发明。\n以下所述的实施例是本发明被应用于语音识别设备的实施例。\n〔第一实施例〕\n图1到4是示出依照本发明的语音识别设备的第一实施例的图。\n首先,将参照图1来描述依照本实施例的基于HMM的语音语言模 型。\n图1为示出依照本实施例的识别网络的基于HMM的语音语言模型 的图。\n本实施例假定了一个表示如图1中所示的基于HMM的识别网络的 模型,即包含待识别的关键词的语音语言模型10。\n语音语言模型10由在其两端与表示无关语音分量的无用信息模 型(以下被称为无关语音的分量模型)12a和12b联系的关键词模型 11。在被包含于自然语音中的关键词被识别的情况下,通过匹配关键 词与关键词模型11来识别包含在自然语音中的关键词,并且通过匹 配无关语音与无关语音的分量模型12a和12b来识别包含在自然语音 中的无关语音。\n实际上,关键词模型11和无关语音的分量模型12a和12b表示 转变自然语音的每个任意段的一组状态。统计源模型“HMM”组成自 然语音,该统计源模型“HMM”是由稳定源的组合表示的非稳定源。\n关键词模型11的HMM(以下被称为关键词HMM)和无关语音分量 模型12a和12b的HMM(以下为称为无关语音分量HMM)具有两个类 型的参数。一个参数是表示从一个状态到另一个状态的状态转变的概 率的状态转变概率,而另一个是输出概率,输出在状态从一个状态到 另一个状态转变时将被观察的向量(每个帧的特征向量)的概率。这 样,关键词模型11的HMM表示每个关键词的特征图型,而无关语音 分量HMM 12a和12b表示每个无关语音分量的特征图型。\n通常,由于即使相同的词或音节也因为各种原因而表现出声学上 的变化,因此组成自然语音的语音声音随扬声器而大大变化。然而, 即使由不同的扬声器发出,相同的语音声音亦可通过特性谱包络及其 时间变化来大体表征。这种声学变化的时序序列图型的随机特性可由 HMM精确地表示。\n这样,如以下所述,依照本实施例,通过匹配所输入自然语音的 特征值与关键词HMM和无关语音HMM并计算似然性,包含在自然语音 中的关键词被识别。\n依照本实施例,HMM是每个关键词的语音成分的特征图型或每个 无关语音分量的语音成分的特征值。此外,HMM是一种概率模型,其 具有表示每个规则时间间隔、每个频率的功率的谱包络数据或从功率 谱算法的逆傅立叶变换获得的倒频谱(cepstrum)数据。\n此外,通过采集由多人发出的每个音位的自然语音数据、提取每 个音位的特征图型并基于所提取的音位特征图型来学习每个音位的 特征图型数据,在每个数据库中事先生成并存储HMM。\n依照本实施例,多个典型的无关语音分量HMM由无关语音分量模 型12a和12b来表示,并且使用无关语音分量模型12a和12b来执行 匹配。\n例如,仅用于元音“a”、“i”、“u”、“e”和“o”的HMM 以及关键词分量HMM(稍后描述)可被用作所述多个典型的无关语音 分量HMM。然后使用这些无关语音分量HMM来执行匹配。\n无关语音分量HMM和匹配过程的细节将在稍后描述。\n当包含在自然语音中的关键词通过使用这种HMM来识别时,待识 别的自然语音被分为预定持续时间的段,并且每个段被与HMM的每个 预存数据进行匹配,然后从一个状态到另一个状态的这些段的状态转 变的概率基于匹配过程的结果而被计算以识别待识别的关键词。\n具体而言,在本实施例中,每个语音段的特征值被与HMM的预存 数据的每个特征图型进行比较;匹配HMM特征图型的每个语音段的特 征值的似然性(对应于依照本发明的关键词概率和无关语音概率)被 计算;基于所计算的似然性和每个语音段的语音特征值与无关语音的 特征值之间的匹配似然性的预设值以及表示所有HMM之间的联系即关 键词和无关语音之间的联系的概率的累计似然性,匹配过程(稍后描 述)被执行,其中似然性的值已在假定给定段包含无关语音的情况下 被预设;并且通过检测有最高似然性的HMM联系,自然语音被识别。\n接下来,将参照图2来描述依照本实施例的语音识别装置的配 置。\n图2为示出依照本发明使用词识别的语音识别装置的示意性配置 的方块图。\n如图2中所示,语音识别装置100包括:用于输入待识别的自然 语音的话筒101;低通滤波器(以下被称为LPF)102;将从话筒101 输出的模拟信号转换为数字信号的模拟/数字转换器(以下被称为A/D 转换器)103;从所输入的语音信号提取对应于语音声音的语音信号 并以预设时间间隔分割帧的输入处理器104;提取每个帧中的语音信 号特征值的语音分析器105;预存表示待识别关键词的特征图型的关 键词HMM和指定语音的HMM(以下被称为指定语音HMM)以便计算稍 后描述的无关语音似然性的HMM模型数据库106;计算所提取的每个 帧的特征值匹配每个所存HMM的似然性的似然性计算器107;基于在 似然性计算器107中计算的似然性来设置表示所提取帧对应于无关语 音的似然性的无关语音似然性的无关语音似然性设置装置108;基于 在逐帧HMM的基础上计算的似然性来执行匹配过程(稍后描述)的匹 配处理器109;以及基于匹配过程的结果来确定包含在自然语音中的 关键词的确定部件110。\n输入处理器和语音分析器105被用于本发明的提取装置,而HMM 模型数据库106用作本发明的数据库。\n此外,似然性计算器107被用于本发明的计算装置、设置装置、 指定语音概率计算装置和采集装置,而无关语音似然性设置装置108 被用于本发明的设置装置和无关语音概率设置装置。\n此外,匹配处理器109和确定部件110被用于本发明的确定装 置。\n自然语音在话筒101中被输入,而话筒101基于所输入的自然语 音而产生语音信号并将其输出到LPF 102。\n由话筒101产生的语音信号在LPF 102中被输入。LPF 102从所 接收的语音信号中去除谐波分量,并将被去除谐波分量的语音信号输 出到A/D转换器103。\n谐波分量已由LPF 102去除的语音信号在A/D转换器103中被输 入。A/D转换器103将所接收的模拟语音信号转换为数字信号,并将 数字语音信号输出到输入处理器104。\n数字语音信号在输入处理器104中被输入。输入处理器104从所 输入的数字语音信号中提取表示自然语音的语音段的语音信号的那 些部分,将语音信号的所提取部分分为预定持续时间的帧,并将其输 出给语音分析器105。\n输入处理器104将语音信号分为例如10ms到20ms的间隔的帧。\n在语音分析器105中,逐帧分析所输入的语音信号,提取每个帧 中的语音信号的特征值,并将其输出到似然性计算器107。\n具体而言,语音分析器105在逐帧的基础上将表示以规则时间间 隔、每个频率的功率的谱包络数据或从功率谱算法的逆傅立叶变换获 得的倒频谱数据提取为语音成分的特征值,将所提取的特征值转换为 向量,并将向量输出到似然性计算器107。\nHMM模型数据库106预存表示待识别关键词的特征值的图型数据 的关键词HMM和计算无关语音似然性所需的指定语音HMM图型数据。\n这些所存的多个关键词HMM的数据表示待识别的多个关键词的特 征值的图型。\n例如,如果在安装于汽车的导航系统中被使用,关键词模型数据 库104被设计用于为汽车存储HMM,该HMM表示包括目的地名称或当 前位置名称或设施名称如饭店名称的语音信号的特征值的图型。\n如以上所述,依照本实施例,表示每个关键词的语音成分的特征 图型的HMM表示概率模型,其具有表示规则时间间隔、每个频率的功 率的谱包络数据或从功率谱算法的逆傅立叶变换获得的倒频谱数 据。\n由于关键词一般由多个音位或音节,如“present location”或 “destination”的情况,依照本实施例,一个关键词HMM由多个关 键词分量HMM组成,而似然性计算器107计算每个关键词分量HMM的 似然性和逐帧特征值。\n以这种方式,HMM模型数据库106存储待识别的关键词的每个关 键词HMM,即关键词分量HMM。\n此外,HMM模型数据库106将表示组成典型无关语音的元音的语 音特征数据(以下被称为指定语音特征数据)的HMM(以下被称为指 定语音HMM)预存为多个预设的指定语音特征值。\n例如,由于即使在无关语音中,每个音节一般也包含元音,因此 HMM模型数据库106存储表示元音“a”、“i”、“u”、“e”和“o” 的语音信号特征值的指定语音HMM。在似然性计算器107中,执行与 这些指定语音HMM的匹配。此外,这些元音“a”、“i”、“u”、“e” 和“o”还表示日语的元音。\n每个帧的特征向量在似然性计算器107中被输入,似然性计算器 107比较每个所输入帧的特征值与HMM模型数据库106中存储的关键 词HMM的每个特征值和指定语音特征数据模型(对应于依照本发明的 指定语音特征值)的每个特征值,由此基于所输入帧和每个HMM之间 的匹配来计算似然性,包括帧对应于HMM模型数据库106中存储的每 个关键词HMM或每个指定语音HMM的概率,并且将与指定语音HMM匹 配的所计算似然性输出给无关语音似然性设置装置108,而将与关键 词HMM匹配的所计算似然性输出给匹配处理器109。\n具体而言,似然性计算器107在逐帧的基础上计算输出概率。输 出概率包括每个帧对应于每个关键词分量HMM的输出概率和每个帧对 应于指定语音HMM的输出概率。此外,似然性计算器107计算状态转 变概率。状态转变概率包括从任意帧到下一帧的状态转变对应于从关 键词分量HMM到另一个关键词分量HMM或指定语音HMM的状态转变的 概率,以及从任意帧到下一帧的状态转变对应于从指定语音HMM到另 一个指定语音HMM或关键词分量HMM的状态转变的概率。此外,似然 性计算器107将所计算的概率作为似然性输出给无关语音似然性设置 装置108和匹配处理器109。\n顺便提及,状态转变概率包括从关键词分量HMM到相同关键词分 量HMM的状态转变以及从指定语音HMM到相同指定语音HMM的状态转 变的概率。\n似然性计算器107将为单独帧所计算的输出概率和状态转变概率 输出给无关语音似然性设置装置108和匹配处理器109作为相应帧的 似然性。\n在无关语音似然性设置装置108中,输入为单独帧基于指定语音 HMM而计算的输出概率和状态转变概率,无关语音似然性设置装置108 计算所输入的输出概率和状态转变概率的平均,并将所计算的平均输 出给匹配处理器109作为无关语音似然性。\n例如,当指定语音HMM表示元音“a”、“i”、“u”、“e”和 “o”的语音信号特征图型时,无关语音似然性设置装置108在逐帧 的基础上为每个元音的HMM而平均输出概率和状态转变概率,并将平 均输出概率和平均状态转变概率作为所述帧的无关语音似然性输出 给匹配处理器109。\n在匹配处理器109中,由似然性计算器107和无关语音似然性设 置装置108计算的逐帧输出概率和每个状态转变概率被输入。匹配处 理器109执行匹配过程以基于所输入的每个输出概率和每个状态转变 概率来计算累计似然性(依照本发明的组合概率),该累计似然性是 每个关键词HMM和无关语音成分HMM的每个组合的似然性,并且将所 计算的累计似然性输出给确定部件110。\n具体而言,在匹配处理器109中,当假定给定帧包含无关语音时, 从无关语音似然性设置装置108输出的无关语音似然性被用作表示每 个帧中语音分量的特征值与无关语音分量的语音分量特征值之间的 匹配似然性的无关语音似然性。此外,通过在逐帧的基础上累计似然 性计算器107所计算的关键词似然性和无关语音似然性,匹配处理器 109计算用于关键词和无关语音的每个组合的累计似然性。因此,匹 配处理器109为每个关键词计算一个累计似然性(如稍后所述)。\n顺便提及,由匹配处理器109执行的匹配过程的细节将在稍后描 述。\n在确定部件110中,由匹配处理器109计算的每个关键词的累计 似然性被输入。确定部件110为每个关键词的词长度而归一化所输入 的累计似然性。具体而言,确定部件110基于被用作计算所输入累计 似然性的基础的关键词持续时间来归一化所输入的累计似然性。此 外,确定部件110把有归一化似然性中的最高累计似然性的关键词输 出为包含在自然语音中的关键词。\n在做出对关键词的决定时,确定部件110亦单独使用无关语音似 然性的累计似然性。如果单独被使用的无关语音似然性具有最高的累 计似然性,则确定部件110确定在自然语音中不包含关键词并输出该 结论。\n接下来,将描述依照实施例由匹配处理器109执行的匹配过程。\n依照本实施例的匹配过程使用维特比算法来计算关键词模型和 无关语音分量模型的每个组合的累计似然性。\n维特比算法是这样一种算法:其基于进入(enter)每个给定状 态的输出概率和从每个状态到另一个状态的转变概率来计算累计似 然性,然后输出在累计概率之后已被计算累计似然性的组合。\n通常,累计似然性首先通过积分(integrate)每个帧的特征值 表示的状态和每个HMM表示的状态的特征值之间的欧几里德距离来计 算,然后通过计算累计距离来计算。\n具体而言,维特比算法基于表示从任意状态i到下一个状态j的 转变的路径来计算累计概率,由此提取通过它可发生状态转变的HMM 的每个路径,即联系和组合。\n在本实施例中,通过从首先被划分的帧开始到最后被划分的帧结 束一个接一个地、将关键词模型或无关语音分量模型的输出概率和由 此的状态转变概率匹配于所输入自然语音的帧,似然性计算器107和 无关语音似然性计算部分108计算每个输出概率和每个状态转变概 率;从首先被划分的帧到最后被划分的帧,计算关键词模型和无关语 音分量的任意组合的累计似然性;通过每个关键词模型确定在每个关 键词模型/无关语音分量组合中具有最高累计似然性的安排;并将所 确定的关键词模型的累计似然性逐一输出给确定部件110。\n例如,在待识别关键词为“present location”和“destination” 而所进入的输入自然语音为“er,present location”的情况下,依 照本实施例的匹配过程执行如下。\n在此假定,无关语音为“er”,无关语音似然性已事先设置,关 键词数据库包含“present”和“destination”的每个音节的HMM, 并且由似然性计算器107和无关语音似然性设置装置108计算的每个 输出概率和状态转变概率已在匹配处理器109中被输入。\n在此情况下,依照本实施例,维特比算法基于输出概率和状态转 变概率为关键词“present”和“destination”计算关键词和无关语 音分量的每个组合中所有安排的累计似然性。\n维特比算法为在此情况下是“present location”和 “destination”的每个关键词从第一帧开始计算自然语音所有帧上 的所有组合图型的累计似然性。\n此外,在为每个关键词计算每个安排的累计似然性的过程中,对 于具有低累计似然性的那些安排,维特比算法在中途停止计算,确定 自然语音不匹配那些组合图型。\n具体而言,在第一帧中,不是作为关键词“present location” 的关键词分量HMM的“p”的HMM的似然性、就是事先设置的无关语 音的似然性被包括在累计似然性的计算中。在此情况下,较高的累计 似然性提供接下来的累计似然性的计算。\n在此情况下,无关语音似然性比“p”的关键词分量HMM的似然 性高,由此对“present#”的累计似然性的计算在“p”之后被终止 (其中*表示无关语音似然性)。\n这样,在这种类型的匹配过程中,对关键词“present”和 “destination”的每个仅计算了一个累计似然性。\n接下来,将参照图3来描述依照本实施例的关键词识别过程。\n图3是示出依照本实施例的关键词识别过程的操作的流程图。\n首先,当控制面板或控制器(未示出)命令每个部件开始关键词 识别过程并且自然语音进入话筒101(步骤S11)时,自然语音通过 LPF 102和A/D转换器103被输入,并且输入处理器104从所输入的 语音信号提取自然语音的语音信号(步骤S12)。接下来,输入处理 器104将所提取的语音信号分为预定持续时间的帧,并从第一帧开始 在逐帧的基础上将语音信号输出给语音分析器105(步骤S13)。\n然后,在该关键词识别过程中,以下过程是在逐帧的基础上进行 的。\n首先,控制器(未示出)判断语音分析器105中输入的帧是否为 最后的帧(步骤S14)。如果是,流程转到步骤S20。另一方面,如 果所述帧不是最后一个,进行以下过程。\n然后,语音分析器105提取所接收帧中的语音信号的特征值,并 将其输出给似然性计算器107(步骤S15)。\n具体而言,基于每个帧中的语音信号,语音分析器105将表示规 则时间间隔、每个频率的谱包络信息或从功率谱算法的逆傅立叶变换 获得的倒频谱信息提取为语音成分的特征值,将所提取的特征值转换 为向量,并将向量输出给似然性计算器107。\n接下来,似然性计算器107比较帧的所输入特征值与在HMM模型 数据库106中存储的关键词HMM和指定语音HMM的特征值,为每个HMM 计算帧的输出概率和状态转变概率,并将用于指定语音HMM的输出概 率和状态转变概率输出给无关语音似然性设置装置108,而将用于关 键词HMM匹配的输出概率和状态转变概率输出给匹配处理器109(步 骤S16)。\n接下来,无关语音似然性设置装置108基于用于指定语音HMM的 所输入的输出概率和所输入的状态转变概率来设置无关语音似然性 (步骤S17)。\n例如,当指定语音HMM表示元音“a”、“i”、“u”、“e”和 “o”的语音信号特征图型时,无关语音似然性设置装置108在逐帧 的基础上平均基于每个帧的特征值和每个元音的HMM而计算的输出概 率和状态转变概率,并将平均输出概率和平均状态转变概率作为所述 帧的无关语音似然性输出给匹配处理器109。\n接下来,基于由似然性计算器107计算的输出概率和状态转变概 率以及由无关语音似然性设置装置108计算的的输出概率和状态转变 概率,匹配处理器109执行匹配过程(以上所述)并计算每个关键词 的累计似然性(步骤S18)。\n具体而言,通过将关键词HMM的所输入累计似然性和无关语音似 然性加给在此以前计算的累计似然性,匹配处理器109积分每个关键 词的似然性,但最终仅计算每个关键词的最高累计似然性。\n接下来,在控制器(未示出)的命令下,匹配处理器109控制接 下来帧的输入(步骤S19)并返回步骤S14。\n另一方面,如果控制器(未示出)判断给定帧是最后的帧,则每 个关键词的最高累计似然性被输出给确定部件110,然后该确定装置 为每个关键词的词长度而归一化累计似然性(步骤S20)。\n最后,基于每个关键词的归一化累计似然性,确定部件110把有 最高累计似然性的关键词输出为包含在自然语音中的关键词(步骤 S21)。由此结束操作。\n这样,依照本实施例,由于自然语音特征值和语音段的每个帧的 关键词特征数据之间匹配的似然性被计算,无关语音似然性基于指定 语音特征数据如元音而被设置,并且包含在自然语音中的关键词基于 这些似然性而被确定,因此可通过使用小量数据来计算无关语音似然 性,而无需预设在常规上计算无关语音概率所需的大量无关语音特征 数据。因此,在本实施例中,计算无关语音似然性所需的处理负荷可 被减小。\n此外,在本实施例中,由于无关语音似然性和所计算似然性的每 个组合的累计似然性是通过累计无关语音似然性和每个所计算似然 性来计算的,并且包含在自然语音中的关键词是基于所计算的累计似 然性来确定的,因此可基于无关语音似然性和每个所计算似然性的每 个组合来确定包含在自然语音中的关键词。\n因此,有可能以高速度容易地识别自然语音中包含的关键词并防 止误识别。\n此外,在本实施例中,当识别包含在自然语音中的两个或多个关 键词时,有可能以较高的速度较容易地识别包含在自然语音中的关键 词并防止误识别。\n例如,当使用如图4中所示的基于HMM的语音语言模型20来识 别两个关键词时,如果在待识别的关键词模型中的词长度被归一化, 则两个关键词可同时被识别。\n具体而言,取代在匹配处理器109中计算每个关键词的累计似然 性,如果匹配处理器109计算包含在HMM模型数据库106中包含的关 键词的每个组合的累计似然性,并且确定部件110通过相加所有关键 词的词长度来归一化词长度,则有可能同时识别两个或多个关键词, 以高速度容易地识别包含在自然语音中的关键词,并防止误识别。\n顺便提及,尽管仅用于元音“a”、“i”、“u”、“e”和“o” 的指定语音HMM在本实施例中被使用,上述关键词分量HMM亦可被用 作指定语音HMM并与以上元音的关键词分量HMM进行匹配。\n在此情况下,似然性计算器107为每个所输入帧和每个关键词分 量HMM计算输出概率和状态转变概率,并将概率的每个计算值输出给 无关语音似然性设置装置108。然后,无关语音似然性设置装置108 计算高(例如,前5个)输出概率和状态转变概率的平均,并将所计 算的平均输出概率和平均状态转变概率作为无关语音似然性输出给 匹配处理器109。\n因此,同以上情况一样,由于可通过使用小量数据来设置无关语 音概率,而无需预设在常规上计算无关语音似然性所需的大量无关语 音特征数据,因此有可能减小计算无关语音概率所需的处理负荷并以 高速度容易地识别包含在自然语音中的关键词。\n此外,尽管关键词识别过程是由依照本实施例的语音识别装置来 执行的,语音识别装置可被配备有计算机和记录介质,而类似的关键 词识别过程可在计算机读取记录介质上存储的关键词识别程序时被 执行。\n在此,DVD或CD可被用作记录介质,而语音识别装置可被配备有 用于从记录介质读取程序的读取器。\n〔第二实施例〕\n图5到6是示出依照本发明第二实施例的语音识别装置的图。\n在本实施例中,取代在第一实施例中基于关键词HMM和表示无关 语音似然性的指定语音HMM来识别关键词,关键词是基于关键词HMM 和表示无关语音似然性的预定固定值来识别的。\n具体而言,依照本实施例,对于每个关键词,关键词模型和无关 语音似然性的每个组合的累计似然性是基于无关语音似然性输出概 率和状态转变概率来计算的,并且匹配过程是通过使用维特比算法来 执行的。\n例如,为识别作为任意自然语音中的关键词的“present”和 “destination”,通过基于无关语音似然性、输出概率和状态转变 概率计算所有以下安排的累计似然性来执行匹配过程:“present”、 “#present”、“present#”和“#present#”以及“destination”、 “#destination”、“destination#”和“#destination#”(其中 #表示无关语音似然性的固定值)。\n在其它方面,本实施例的配置类似于第一实施例,除了基于关键 词HMM和预定固定值来识别关键词。\n如图5中所示,语音识别装置200包括:话筒101;LPF 102; A/D转换器103;输入处理器104;语音分析器105;预存表示待识别 关键词的特征图型的关键词HMM的关键词模型数据库201;计算所提 取的每个帧的特征值匹配关键词HMM的似然性的似然性计算器202; 基于与每个关键词HMM匹配的所计算逐帧似然性和不构成任何关键词 的无关语音的预设似然性来执行匹配过程的匹配处理器203;以及确 定部件110。\n输入处理器104和语音分析器105用作本发明的提取装置,而关 键词模型数据库201用作本发明的第一数据库。\n此外,似然性计算器202用作本发明的计算装置和第一采集装 置,匹配处理器108用作第二数据库、第二采集装置和确定装置,而 确定装置109用作本发明的确定装置。\n关键词模型数据库201预存表示待识别关键词的特征图型数据的 关键词HMM。所存的关键词HMM表示待识别的相应关键词的特征图 型。\n例如,如果在安装于汽车的导航系统中被使用,关键词模型数据 库201被设计用于为汽车存储HMM,该HMM表示包括目的地名称或当 前位置名称或设施名称如饭店名称的语音信号的特征值的图型。\n如以上所述,依照本实施例,表示每个关键词的语音成分的特征 图型的HMM表示一种概率模型,其具有表示规则时间间隔、每个频率 的功率的谱包络数据或从功率谱算法的逆傅立叶变换获得的倒频谱 数据。\n由于关键词一般由多个音位或音节,如“present location”或 “destination”的情况,依照本实施例,一个关键词HMM由多个关 键词分量HMM组成,而似然性计算器202逐帧计算特征值和每个关键 词分量HMM的似然性。\n以这种方式,关键词模型数据库201存储待识别的关键词的每个 关键词HMM,即关键词分量HMM。\n在似然性计算器202中,每个帧的特征向量被输入,并且似然性 计算器202通过基于每个帧的所输入特征向量在每个帧的每个所输入 HMM和每个数据库中存储的HMM的每个特征值之间进行匹配来计算似 然性,并且将所计算的似然性输出给匹配处理器203。\n依照本实施例,似然性计算器202基于每个帧的特征值和关键词 模型数据库201中存储的HMM的特征值来计算概率,其包括每个帧对 应于关键词模型数据库201中存储的每个HMM的概率。\n具体而言,似然性计算器202计算表示每个帧对应于每个关键词 分量HMM的概率的概率。此外,它还计算状态转变概率,该状态转变 概率表示从任意帧到下一帧的状态转变对应于从关键词分量HMM到另 一个关键词分量HMM的状态转变的概率。然后,似然性计算器202将 所计算的概率作为似然性输出给匹配处理器108。\n顺便提及,状态转变概率包括从每个关键词分量HMM到相同关键 词分量HMM的状态转变的状态转变概率。\n似然性计算器202将为每个帧所计算的输出概率和状态转变概率 作为帧的似然性输出给匹配处理器203。\n在匹配处理器203中,由似然性计算器202计算的逐帧输出概率 和状态转变概率被输入。匹配处理器203执行匹配过程以基于所输入 的输出概率、所输入的输出状态转变概率和无关语音似然性来计算累 计似然性,该累计似然性是关键词HMM和无关语音似然性的每个组合 的似然性,并且将累计似然性输出给确定部件110。\n具体而言,匹配处理器203预存表示无关语音似然性的输出概率 和状态转变概率。当假定给定帧是无关语音分量的帧时,该无关语音 似然性表示每个帧中自然语音所包含的语音分量的特征值与无关语 音的语音分量特征值之间的匹配。此外,通过在逐帧的基础上累计似 然性计算器202所计算的关键词似然性和无关语音似然性,匹配处理 器203计算用于关键词和无关语音的每个组合的累计似然性。因此, 匹配处理器203计算每个关键词的累计似然性(如稍后所述)以及没 有关键词的累计似然性。\n接下来,将参照图6来描述依照本实施例的关键词识别过程。\n图6是示出依照本实施例的关键词识别过程的操作的流程图。\n首先,当控制面板或控制器(未示出)命令每个部件开始关键词 识别过程并且自然语音进入话筒101(步骤S31)时,自然语音通过 LPF 102和A/D转换器103被输入,并且输入处理器104从所输入的 语音信号提取自然语音的语音信号(步骤S32)。接下来,输入处理 器104将所提取的语音信号分为预定持续时间的帧,并从第一帧开始 在逐帧的基础上将语音信号输出给语音分析器105(步骤S33)。\n然后,在该关键词识别过程中,以下过程是在逐帧的基础上进行 的。\n首先,控制器(未示出)判断语音分析器105中输入的帧是否为 最后的帧(步骤S34)。如果是,流程转到步骤S39。另一方面,如 果所述帧不是最后一个,进行以下过程。\n然后,语音分析器105提取所接收帧中的语音信号的特征值,并 将其输出给似然性计算器202(步骤S35)。\n具体而言,基于每个帧中的语音信号,语音分析器105将表示规 则时间间隔、每个频率的谱包络信息或从功率谱算法的逆傅立叶变换 获得的倒频谱信息提取为语音成分的特征值,将所提取的特征值转换 为向量,并将向量输出给似然性计算器202。\n然后,似然性计算器202比较帧的所输入特征值与在关键词模型 数据库201中存储的HMM的特征值,为每个HMM计算帧的输出概率和 状态转变概率,并将其输出给匹配处理器203(步骤S36)。\n接下来,基于由似然性计算器202计算的输出概率和状态转变概 率以及在匹配处理器203中存储的预设无关语音似然性,匹配处理器 203执行匹配过程(以上所述)并计算每个关键词的累计似然性(步 骤S37)。\n具体而言,通过将关键词HMM的所输入累计似然性和无关语音似 然性加给在此以前计算的累计似然性,匹配处理器203积分每个关键 词的似然性,但最终仅计算每个关键词的最高累计似然性。\n接下来,在控制器(未示出)的命令下,匹配处理器203控制接 下来帧的输入(步骤S38)并返回步骤S34。\n另一方面,如果控制器(未示出)判断给定帧是最后的帧,则每 个关键词的最高累计似然性被输出给确定部件110,然后该确定装置 为每个关键词的词长度而归一化累计似然性(步骤S39)。\n最后,基于每个关键词的归一化累计似然性,确定部件110把有 最高累计似然性的关键词输出为包含在自然语音中的关键词(步骤 S40)。由此结束操作。\n这样,依照本实施例,由于自然语音特征值和语音段的每个帧的 关键词特征数据之间匹配的似然性被计算,并且包含在自然语音中的 关键词基于所计算的似然性和预设无关语音似然性而被确定,因此可 无需计算无关语音似然性而确定包含在自然语音中的关键词。\n此外,在本实施例中,由于无关语音似然性和所计算似然性的每 个组合的累计似然性是通过累计无关语音似然性和每个所计算似然 性来计算的,并且包含在自然语音中的关键词是基于所计算的累计似 然性来确定的,因此可基于无关语音似然性和每个所计算似然性的每 个组合来确定包含在自然语音中的关键词。\n因此,有可能以高速度容易地识别自然语音中包含的关键词并防 止误识别。\n此外,在本实施例中,当识别包含在自然语音中的两个或多个关 键词时,有可能以较高的速度较容易地识别包含在自然语音中的关键 词并防止误识别。\n例如,当使用如图4中所示的基于HMM的语音语言模型20来识 别两个关键词时,如果在待识别的关键词模型中的词长度被归一化, 则两个关键词可同时被识别。\n具体而言,取代在匹配处理器203中计算每个关键词的累计似然 性,如果匹配处理器203计算包含在关键词模型数据库201中包含的 关键词的每个组合的累计似然性,并且确定部件110通过相加所有关 键词的词长度来归一化词长度,则有可能同时识别两个或多个关键 词,以高速度容易地识别包含在自然语音中的关键词,并防止误识 别。\n此外,尽管关键词识别过程是由依照本实施例的语音识别装置来 执行的,语音识别装置可被配备有计算机和记录介质,而类似的关键 词识别过程可在计算机读取记录介质上存储的关键词识别程序时被 执行。\n在此,DVD或CD可被用作记录介质,而语音识别装置可被配备有 用于从记录介质读取程序的读取器。\n本发明可被实施以其它特定形式而无需背离其精神或基本特 性。因此,给出的实施例应在各方面被认为是说明性的而非局限性 的,因此,由所附的权利要求而不是以上描述表示的本发明范围以及 在权利要求等效范围和意义的范围内所有变化欲在此被包含。
法律信息
- 2009-08-05
专利权的终止(未缴年费专利权终止)
专利权的终止(未缴年费专利权终止)授权公告日:2006.10.25
- 2006-10-25
- 2004-03-03
- 2003-12-24
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |