著录项信息
专利名称 | 用于识别语音的方法 |
申请号 | CN01132580.1 | 申请日期 | 2001-09-06 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2002-04-03 | 公开/公告号 | CN1342969 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | 暂无 | IPC分类号 | 暂无查看分类表>
|
申请人 | 索尼国际(欧洲)股份有限公司 | 申请人地址 | 联邦德国柏林
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 索尼国际(欧洲)股份有限公司 | 当前权利人 | 索尼国际(欧洲)股份有限公司 |
发明人 | R·坎佩;S·戈伦茨 |
代理机构 | 中国专利代理(香港)有限公司 | 代理人 | 陈霁;张志醒 |
摘要
这里给出了一种用于识别语音的方法,其中识别过程以下述方式开始:采用开始声学模型(SAM)并且通过除去或消除对于描述说话行为和当前说话者质量无用的模型函数混合分量(MFMjk),当前声学模型(CAM)被修正。因此,通过适应当前说话者,声学模型(SAM,CAM)的尺寸被减少,因此使得执行速度加快,并提高识别效率。
1.用于识别语音的方法,其中对于识别过程,使用基于一组模型函数混合的当前声学模型,并且其中在该识别过程期间,通过根据至少一个已经获得的识别结果至少部分地改变模型函数混合的模型函数混合分量的作用,来调整所述当前声学模型,其中将开始声学模型用作所述当前声学模型来开始该识别过程,和在已执行给定数量的识别步骤之后,根据所述当前声学模型通过消除如下的模型函数混合分量来产生修正的声学模型,该模型函数混合分量相对于至少给定数量的、已经获得的识别结果具有可忽略的作用,和将所述修正的声学模型用作所述当前声学模型来继续进行该识别过程,其中给每个模型函数混合分量加权一个加权因子矢量分量,和其中如果每个所述模型函数混合分量的加权因子矢量分量的绝对值都超过给定阈值,并且超过给定阈值的次数为已执行的识别步骤的给定数量次数,则每个所述模型函数混合分量被分类为可忽略的。
2.如权利要求1所述的方法,其中在已执行每个预先确定数目的识别步骤之后或者在已执行每个单一识别步骤之后,重复地产生修正的声学模型。
3.如权利要求1所述的方法,其中在产生修正的声学模型之前的识别步骤的数目在当前识别过程或自适应过程之内加以确定或改变。
4.如权利要求1所述的方法,其中将声学模型用作所述开始声学模型或用作所述当前声学模型,它的模型函数混合至少包含分布函数或高斯类型的函数,作为所述模型函数混合分量。
5.如权利要求1所述的方法,其中每个所述模型函数混合是以函数矢量和加权因子矢量为基础的,每个所述模型函数混合都具有相等数量的分量。
6.如权利要求5所述的方法,其中每个所述模型函数混合是一个由其加权因子矢量分量加权了的矢量函数分量的线性组合或叠加,表示为加权因子矢量和函数矢量的标量积:MFMj=Σk=1njaj,kfj,k=ajTfj=aj·fj]]>其中MFMj表示第j个模型函数混合,aj表示第j个加权因子矢量,其中aj,k是其第k个分量,fj表示第j个函数分量,其中fj,k是其第k个分量,ajT表示aj的转置形式,·表示矢量的标量积或内积。
7.如权利要求1所述的方法,其中在开始识别过程之前,为每个所述模型函数混合分量独立地预先确定每个所述阈值。
8.如权利要求7所述的方法,其中在识别过程期间,根据语音输入的信号质量信息或相对于统计数据或噪声数据,来确定或修正每个所述阈值。
9.如权利要求1所述的方法,其中针对说话者自适应,加权因子矢量分量连同修正的声学模型的分量一同被修正,以便减少低于确定阈值的确定加权因子矢量分量。
用于识别语音的方法\n技术领域\n本发明涉及一种识别语音的方法,特别涉及用于识别语音的方法,由此通过说话者自适应,用于声学模型的模型函数混合的数量被降低,更特别的是,涉及降低基于HMM的说话者自适应语音识别系统中的高斯混合数。\n背景技术\n现在,用于自动语音识别的方法变的越来越重要。用于识别语音的传统方法中的特殊问题是不得不同时实现相反的目标。一方面,该方法和设备应该尽可能灵活以便处理大量的说话者行为,特别是有多种发音,口音,语调等等的发音行为。然而,另一方面,用于识别语音的方法和设备应该很小以便很容易实现,以具有快速的性能和较高的识别效率,特别是具有低成本。\n现有技术中用于识别语音的方法利用说话者自适应方法来变换所依据的声学模型以更好地适应声学属性以及当前或特定说话者的发音行为。每个声学模型的基础基本上是一组模型函数的混合。需要很多模型函数混合来覆盖大量的,变化的声学行为,特别是涉及音素,音位,子字单元,音节,字或其它的声学特性。在传统用于识别语音的方法中,通过在识别过程中,特别基于至少一个已经获得的识别结果,至少部分改变模型函数混合的模型函数混合分量,当前声学模型被调整。\n这些传统的用于识别语音的说话者自适应方法的一个主要缺点是这些模型实际上采用了大量的模型函数混合和模型函数混合分量。因此,这些用于识别语音的普通方法必须执行等价的大量检查、比较和判断工作以便使得当前声学模型适合当前说话者,由于计算和检查的负担,用于识别语音的传统方法的实现必须基于具有高容量存储设备和快速计算单元的高性能计算机。\n发明内容\n本发明的一个目标是给出一种用于识别语音的方法,该方法具有快速性能,并且计算负担降低而且具有较高的识别率。\n该目标是通过本发明的一种语音识别方法实现的。用于识别语音的本发明方法的优选和有利实施方案具有相应的主题。\n根据本发明用于识别语音的方法的特征在于识别过程是从使用一个开始声学模型作为所述当前声学模型而开始的。此外,在给定的所执行识别步骤和/或所获得识别结果之后,基于所述当前声学模型可以产生一个修正后的声学模型,其方式是消除或除去涉及至少给定数量的已获得识别结果的具有可忽略效应的模型函数混合分量。此外,在每种情况下,利用所述修正后的声学模型作为所述当前声学模型的识别过程会继续-特别是到下一个识别步骤。\n因此,本发明的一个基本思想是利用大量的混合,采用一个开始声学模型来覆盖大量的、变化的说话者声学属性。通过从当前声学模型中除去或消除对描述或模拟当前说话者的说话或声学行为和/或特性不起作用或仅起很小作用的模型函数混合分量,模型函数组、特别是必须参考其作用来检查的模型函数混合以及其分量被减少。如果特定的模型函数混合分量基本上不对实现或描述识别结果起作用和/或不对获得特定识别结果起作用,它被跳过。因此,当前识别过程中的下述识别步骤在不用检查这些跳过的模型函数混合分量的情况下被实现,其中的分量被分类为在过去的识别过程中可忽略的。\n与用于识别语音的现有技术或传统方法相比,在识别过程刚开始时,本发明方法可以为给定当前说话者使用与传统方法相同的声学模型。但是随着识别结果增多,并且因此有更多的识别步骤,根据本发明,模型函数混合分量的数量被降低,因此,消除了为当前识别过程中下面识别步骤计算调整后的当前声学模型中的剩余模型函数混合分量的负担。其结果是,本发明方法可以执行的更快,同时需要更少的存储容量,特别是不需要降低识别率或效率。\n根据本发明的优选实施方案,在每个固定和/或预定的所执行识别步骤之后,和/或获得识别结果之后,特别是在每个单一识别步骤和/或结果之后,修正后的声学模型被重复产生。基于瞬时更新的当前声学模型,在其后执行当前声学模型自适应的步骤数可以被选择用于平衡期望的本发明方法的快速性能和所期望的高可靠识别。\n与预定和/或固定一些识别步骤/结果,并在其后执行自适应的做法不同的是,根据本发明的特定优选实施方案,识别步骤的数目或结果的数目可以被确定和/或在识别和/或自适应过程中改变。\n根据本发明方法的优选实施方案,一种声学模型被使用,特别是用作每种情况中的所述开始声学模型和/或所述当前声学模型-其中,模型函数混合至少包括分布函数或类似函数。特别的,高斯类型的函数为优选函数,因为它们适于模拟说话者的声学特性。\n在用于识别语音的本发明方法的另一个有利实施方案中,在每种情况中,模型函数混合基于一个函数矢量和/或加权因子矢量,每个矢量特别具有有限或相等数量的分量。这样做的特别优越之处是,每个函数矢量分量被分配一个特殊的加权因子矢量,当模拟当前说话者的声学特性时,该矢量描述其幅度或作用。对于不同的模型函数混合,可以选择独立数量的函数矢量或加权因子矢量分量。最好的是,对于所有模型函数混合,函数矢量和加权因子矢量,分量数相同。\n一个特殊的优点是,对于不同的模型函数混合是如何构造的给出了一个特殊的简单描述。最好的是,每种情况中的模型函数混合被表示为被其加权因子矢量分量加权的矢量函数分量的线性组合或重叠。特别是,模型函数混合可以由加权因子矢量和函数矢量的标量积或内积,特别是根据下面公式表示:MFMj=Σk=1njaj,kfj,k=ajTfj=aj·fj]]>其中MFMj表示第j个模型函数混合,aj表示第j个加权因子矢量,aj,k是其第k个矢量,fj表示第j个函数矢量,fj,k是其第k个分量,ajT表示aj的转置,·表示矢量的标量积或内积。这种结构使得能够对涉及说话行为的模型函数混合很容易估计,计算和重构,并且很容易地在当前声学模型中估计其作用。\n用于识别的本发明方法的基础是为了描述当前说话者声学特性而定义模型函数混合分量和其作用。根据另一个优选实施方案,模型函数混合分量在下面情况下被划分为可忽略不计的:其加权因子矢量分量的绝对值超过了给定阈值。该阈值定义了一个限制值,该限制值必须由模型函数混合分量的幅值即,适当的加权因子矢量分量来达到,使得不同的模型函数混合分量被认为对于当前说话者的声学特性的描述和模拟起作用。\n一般来说,仅有一次低于某个阈值并不足以将其分类为可忽略。因此,有利的是,当不同的加权因子矢量分量超过给定阈值给定次数时,将其作用划分为可忽略的,尤其是在识别结果和/或识别步骤分别已经获得或执行时会这样。这意味着在说话行为的评估和当前声学模型的自适应中,将会检测特定的加权因子矢量分量低于给定阈值的次数是否超过给定的次数。\n此外,有必要将低于给定阈值的情况与给定数量的其中模型函数混合分量对于当前说话者的说话行为的描述和模拟起作用的情况区分开。发生点或偶发时间可能不会导致划分成可忽略。在这些情况中,如果低于给定阈值的情况是相连或相关,就可能给出(其)可忽略的分类。\n在用于识别语音的本发明方法的另一个优选实施方案中,阈值被预定,特别是在识别过程开始之前和/或每个所述模型函数混合分量独立设立。该种手段使得在其自适应和评估过程中,可以对开始声学模型和其行为进行特殊设计。基于特殊的阈值组,一些模型函数混合分量或该模型函数混合可以用特殊的方法评估。\n在当前声学模型的自适应和评估过程中,有必要在识别过程中调整、确定和/或修正阈值而不是保持其固定。可以基于涉及流入语音流并特别涉及特定统计和/或噪声数据的信号质量信息来调整和修正阈值。\n本发明可以进一步总结如下:传统上,说话者自适应方法变换语音识别器或语音识别方法的基础声学模型,使得它们很好地适应声学特性以及当前说话者的说话行为。声学模型的基础是大量的模型函数混合,特别是高斯型的函数混合。有必要捕捉大量的这种模型函数混合,并覆盖涉及口呼音素,音节,符号,字,子字单元或类似元素的声学变量。\n尽管,根据上面描述的方法,传统的语音识别方法至少可以部分处理所述的大量的说话行为变化。它们却苦于在当前识别过程中对大量模型函数混合和其分量进行计算,即使这些对于描述当前说话者是不必要的。在几个自适应步骤之后,这些模型被调整,使得更好地与新说话者的声学特性匹配。因此,对于该特定说话者,这些模型会被调整的更多。这意味着,不再需要使用很多混合,因为其变化性变的很小了。这一点由下面事实表示:即,对于该说话者的混合作用的加权将更高。\n因此,本发明方法建议将当前声学模型中的模型函数混合和混合分量数降低到实际需要用于描述当前说话者的这种模型函数混合分量数。这节省了执行时间,使得执行的更快,因此降低了存储容量的负担。\n在对当前说话者的自适应之后,涉及所有可能说话者的当前声学模型,特别是开始声学模型的大量变化不再需要。因此,作为当前模型的调整后声学模型中的较少的模型函数混合和模型函数混合分量足以描述并模拟当前说话者。只有这些模型函数混合分量在自适应过程中保持并对于获得正确的识别结果是必要的。\n对于模型函数混合分量,例如高斯分量或类似分量,它们经常存在于识别过程或语音信号中-即它们在过去的识别步骤中匹配的很好,所获得的识别结果或观察的语音帧-混合加权或加权因子矢量分量缓慢增加。对于其它没有观察的模型函数混合分量,加权因子矢量分量被降低。如果模型函数混合分量的这种混合加权低于上面描述的阈值,所述模型函数混合分量被抛弃。因此,它将不会在以后计算。因此,节省了执行时间和内存。\n本发明提供用于识别语音的方法,其中对于识别过程,使用了基于一组模型函数混合的当前声学模型,并且其中在该识别过程中,所述当前声学模型被调整,其方式是基于至少一个已经获得的识别结果至少部分改变模型函数混合的模型函数混合分量的作用,其中将开始声学模型用作所述当前声学模型而使该识别过程开始,和在给定数量的已执行识别步骤之后,基于所述当前声学模型产生修正的声学模型,其方式是消除如下的模型函数混合分量,该模型函数混合分量相对于至少给定数量的、已经获得的识别结果具有可忽略的作用,和将所述修正的声学模型用作所述当前声学模型而使该识别过程继续,其中给每个模型函数混合分量加权一个加权因子矢量分量,和如果每个所述模型函数混合分量的加权因子矢量分量的绝对值都超过给定阈值,并且超过给定阈值的次数为已执行识别步骤的给定数量次数,则每个所述模型函数混合分量被分类为可忽略的。下面,基于优选实施方案并参考通过方框图描述所述优选实施方案的附图,用于识别语音的本发明方法被更详细地描述。\n附图说明\n附图的方框图给出用于识别语音的本发明方法10的优选实施方案。\n具体实施方式\n在第一步11中,语音信号被从当前说话者接收并预处理。为连续接收语音流一部分的语音信号被传送给语音识别处理12的核心,在步骤13中,可从此获得识别结果。根据识别步骤12并根据步骤13的识别结果,在线说话者自适应被初始化。在在线说话者自适应14过程中,均值矢量,方差和混合加权aj,即高斯混合的加权因子矢量分量aj被修正。\n在下一个步骤15中,根据已经执行的当前识别过程的识别步骤12,混合加权aj被计算。在计算过程中,高斯或一般的模型函数混合分量被抛弃并从当前声学模型中除去,该模型具有低于给定阈值Cj,k的加权因子矢量aj,k。\n在下面步骤16中,剩下的加权因子矢量分量被归一化以便为每个模型函数混合给出相加值1。\n在下面步骤17中,当前声学模型CAM的内部结构和数据被调整并更新,包括隐马尔可夫模型等的内部数据结构,使得形成修正后的声学模型MAM。\n在下面步骤18中,当前模型CAM被设置成步骤17的修正后的声学模型MAM。在步骤19,最后,当前声学模型CAM被准备指导识别过程10的下一个识别步骤12。\n根据本发明的另一个优选实施方案,在用于说话者自适应的修正后声学模型MAM的其它分量中,加权因子矢量aj,k被修正,特别是减少某些低于某个阈值的加权因子矢量aj,k。
法律信息
- 2010-09-22
未缴年费专利权终止
IPC(主分类): G10L 15/00
专利号: ZL 01132580.1
申请日: 2001.09.06
授权公告日: 2005.01.05
- 2005-01-05
- 2002-04-03
- 2001-12-19
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |