技术领域\n本发明涉及语音识别(speech recognition),特别涉及一种语音识别的前级检测系统与方法。\n背景技术\n语音识别系统在现实环境的应用中,时常因为一些使用者本身的因素:例如说话的腔调、速度,或者是背景环境的影响:如背景噪声或信道效应等,造成语音输入信号超出系统识别能力范围。先前许多强健性语音识别研究,针对上述问题已经对提出许多不同的技术来改进系统识别器,但是改善幅度始终有限。\n美国专利6,272,461的文献“Method For Implementing a SpeechVerification System For Use In a Noisy Environment”中,公开了一种用于吵杂环境的语音鉴别系统与方法。此专利文献中,系统的前级设置了一个语音鉴别器(speech verifier)。如图1所示,此语音鉴别器100包括噪音控制器(noisesuppressor)110、音高检测器(pitch detector)120、和信心决定器(confidencedeterminer)130。其目的是去除一些噪声,并且求取音高,接着利用音高的值转换为一个随着时间改变的信心值(confidence index),用来决定某个时间点的输入信号是否为语音,这项信心值再传送给识别器去辅助识别。\n此美国专利文献6,272,461着重的部分是检测语音是否发生去帮助识别器识别,系统不管目前的输入信号是否已超出可接受范围,让所有输入信号进行识别。\n再观察目前语音识别或对话系统,并无任何使用者环境或使用者本身状况的感知能力,这意味着在更加严格的使用环境或条件下,系统只能盲目地执行识别并输出答案,如果遇到超出系统能力的服务要求,通常使用者只能得到错误的答案,无形中系统浪费了许多不必要的系统资源去处理诸如此类不易成功的语音服务。\n以自动电话总机为例,假如使用者站在人声鼎沸的地铁或是吵杂的大马路上查询电话分机号码,噪声的影响造成输入信号的信号-噪声比(signal-to-noise ratio,SNR)过低而超出原先系统可以接受的范围,系统在无法察觉的情况下继续进行识别,最后输出的是错误的分机号码,使用者只好转而要求人工服务来达到转接的目的。这样不但浪费了系统的识别资源,也无法达到节省人工服务的目的。\n倘若系统能在识别前得知输入信号是否识别成功,对于可成功识别的信号便直接进入识别器识别。而针对无法识别成功的信号去做出一些响应和对策,则可增加识别成功的机会。\n发明内容\n本发明为解决上述公知技术的语音识别系统并无环境感知能力的缺点,其主要目的是提供一种语音识别的前级检测系统与方法。\n相较于公知技术,本发明拥有下列的特点:(a)本发明着重设计于系统识别的前级中,只花费少许系统资源来测量输入信号是否识别成功,而非检测出输入信号里语音及非语音部分,并直接将此信息提供给识别器以提高识别率.(b)对于可成功识别的信号便直接进入识别器识别,而针对无法识别成功的信号则做出一些响应和对策.(c)减少不必要的识别资源的浪费,并提高系统识别成功的机率.\n本发明的语音识别的前级检测系统设计在语音识别或对话装置的前级中,主要包含环境参数求取器(environment parameter generator)、信号是否可识别判别器(signal recognition verifier)和策略响应处理器。\n此系统的操作流程如下。首先,参数求取器对输入信号求取出一些环境参数,来代表此输入信号所在的环境状况或信号的质量。之后,信号是否可识别判别器经由事先训练后,根据该输入信号的环境参数,判别此输入信号是否可识别成功。当判别可识别成功时,便将此输入信号传送至一般的识别装置。当判别无法识别成功时,便触发策略响应处理器。策略响应处理器根据输入信号的环境参数来响应使用者目前的环境状况或信号质量,并且提出对策,使识别成功机率提高。\n在本发明的实施例中,参数求取器选择输入信号的信号-噪声比、输入信号为语音的机率,以及系统处理输入信号的可靠度来当作环境参数。而策略响应处理器提出的多种不同的对策为引导使用者改善方法,包括如信号-噪声比过低时,请使用者提高音量或更换较为安静的环境;或者可靠度值太小时,则提示使用者提高说话的清晰度等。接着提示使用者重新输入信号或者为其转接客服中心。\n根据本发明的一种语音识别的前级检测系统,设计在识别装置进行语音识别的前级中,该语音识别的前级检测系统包含有:\n环境参数求取器,对输入信号求取出至少一种环境参数,其中该环境参数代表该输入信号所在的环境状况或该输入信号的质量,且所述至少一种环境参数包括系统处理该输入信号的可靠度;\n信号是否可识别判别器,以训练语言材料的环境参数经由事先训练后,根据该环境参数,判别该输入信号是否进入语音识别;以及\n策略响应处理器,若判别结果为不进入语音识别,则做出多种不同的策略响应;\n其中,所述可靠度是基于所述输入信号的频谱参数的机率分布和系统模型的频谱参数的机率分布产生的,且若判别结果为进入语音识别,则该信号是否可识别判别器传送该输入信号至该识别装置。\n根据本发明的检测输入语音信号可识别度的系统,其中该环境参数还包括该输入信号的信号-噪声比的值和该输入信号为语音的机率,或者还包括该输入信号的信号-噪声比的值,或者还包括该输入信号为语音的机率。\n根据本发明的检测输入语音信号可识别度的系统,其中该环境参数求取器包括信号-噪声比估算器、输入信号为语音的机率估算器和系统处理输入信号的可靠度估算器,以分别求取出该输入信号的信号-噪声比的值、该输入信号为语音的机率和该系统处理该输入信号的可靠度。\n根据本发明的检测输入语音信号可识别度的系统,其中多种不同的策略响应为依照所述至少一种环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。\n根据本发明的检测输入语音信号可识别度的系统,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率和系统处理该输入信号的可靠度.\n根据本发明的检测输入语音信号可识别度的系统,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况,提供相对应的改善方式。\n根据本发明的检测输入语音信号可识别度的系统,其中该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。\n根据本发明的检测输入语音信号可识别度的系统,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量或者更换较为安静的环境,并且重新输入信号。\n根据本发明的检测输入语音信号可识别度的系统,其中当该系统处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。\n根据本发明的检测输入语音信号可识别度的系统,其中该放弃识别代表该信号不传送至该识别装置或者转至一具有人工服务之处。\n根据本发明的一种语音识别的前级检测方法,设计在识别装置进行语音识别的前级中,该语音识别的前级检测方法包含下列步骤:\n(a)对输入信号求取出至少一种环境参数,该环境参数代表该输入信号所在的环境状况或信号的质量,且所述至少一种环境参数包括系统处理该输入信号的可靠度;\n(b)在训练语言材料的环境参数经由事先训练后,根据该输入信号的该环境参数,来判别该输入信号是否进入语音识别;以及\n(c)若判别结果为不进入语音识别,则触发策略响应处理器,做出多种不同的策略响应;以及\n(d)若判别结果为进入语音识别,则传送该输入信号至该识别装置;\n其中所述可靠度是基于所述输入信号的频谱参数的机率分布和系统模型的频谱参数的机率分布产生的。\n根据本发明的检测输入语音信号可识别度的方法,其中该步骤(a)中至少一种环境参数还包括该输入信号的信号-噪声比的值和该输入信号为语音的机率,或者还包括该输入信号的信号-噪声比的值,或者还包括该输入信号为语音的机率。\n根据本发明的检测输入语音信号可识别度的方法,其中至少一种环境参数利用语音活动检测方式和特征参数遗失补偿方式来求取。\n根据本发明的检测输入语音信号可识别度的方法,其中该输入信号的信号-噪声比的值的求取包括下列步骤:\n利用语音活动检测方式对输入信号的频谱特征参数检测出语音部分及非语音部分;\n利用特征参数遗失补偿方式将该语音部分消除噪声而得到干净语音信号;以及\n依据该非语音部分与该干净语音信号,计算出该输入信号的该信号-噪声比的值。\n根据本发明的检测输入语音信号可识别度的方法,其中该输入信号为语音的机率的求取包括下列步骤:\n利用特征参数遗失补偿方式,估计干净语音信号的频谱参数在时间t与频带d时,该输入信号的信号-噪声比的值大于0的机率,其中该干净语音信号是先利用一语音活动检测方式检测出语音部分,再从该语音部分消除噪音而得到的;\n利用特征参数遗失补偿方式,估计该干净语音信号频谱在该时间t测量属于语音的机率R(t);以及\n计算出该R(t)在该输入信号的时间长度的平均值,作为该输入信号为语音的机率。\n根据本发明的检测输入语音信号可识别度的方法,其中该系统处理该输入信号的可靠度的求取包括下列步骤:\n在频谱上测量该输入信号与已知系统模型分布的差异度;以及\n将该差异度经由一个S型公式转换为0到1的可靠度参数。\n根据本发明的检测输入语音信号可识别度的方法,其中该步骤(b)中该训练语言材料的环境参数的训练法则利用样本分类方法中的多阶感知力方式。\n根据本发明的检测输入语音信号可识别度的方法,其中该步骤(c)中该策略响应为依照所述至少一种环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。\n根据本发明的检测输入语音信号可识别度的方法,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率和系统处理该输入信号的可靠度。\n根据本发明的检测输入语音信号可识别度的方法,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况提供相对应的改善方式。\n根据本发明的检测输入语音信号可识别度的方法,其中的该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。\n根据本发明的检测输入语音信号可识别度的方法,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量或者更换较为安静的环境,并且重新输入信号。\n根据本发明的检测输入语音信号可识别度的方法,其中当该系统处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。\n根据本发明的检测输入语音信号可识别度的方法,其中该放弃识别代表该信号不传送至该识别装置或者转至一具有人工服务之处。\n配合下列附图、实施例的详细说明及权利要求书,将上述及本发明的其它目的与优点详述于后。\n附图说明\n图1为一种传统的用于吵杂环境的语音鉴别系统与方法;\n图2为本发明的检测输入语音信号可识别度的系统的一个方框示意图;\n图3为环境参数求取器的一个方框示意图;\n图4为信号是否可识别判别器的一个方框示意图;\n图5为策略响应处理器的策略响应的一个范例;\n图6为仿真噪声环境并产生六组测试集合的测试信号的识别率的实验结果;\n图7为加入本发明后,无法识别成功和可识别成功的误差率的输出结果。\n其中,附图标记说明如下:\n100语音鉴别器 120音高检测器 110噪音控制器\n130信心决定器 200检测输入语音信号可识别度的系统\n210环境参数求取器 220信号是否可识别判别器 225识别装置\n230策略响应处理器 310a信号-噪声比估算器\n310b信号为语音的机率估算器310c系统处理输入信号的可靠度估算器\nY输入信号\nSNRy输入信号y的信号-噪声比的值\nPy输入信号y为语音的机率\nRy系统处理输入信号y的可靠度\n501响应使用者无法成功识别输入信号,并依照估算出的环境参数告知使用者目前环境及信号质量状况\n502提示使用者重新输入信号或者为其转至一具有人工服务之处\n具体实施方式\n如前所述,本发明的检测输入语音信号可识别度的系统着重设计语音识别或对话装置的前级。图2是本发明的检测输入语音信号可识别度的系统的一个方框示意图。如图2所示,此系统200主要包含环境参数求取器210、信号是否可识别判别器220和策略响应处理器230。参考此图2,现说明此系统的各元件的功能及此系统的操作流程如下。\n首先,参数求取器210对输入信号求取出至少一个环境参数。此环境参数代表此输入信号所在的环境状况或信号的质量。不失一般性,本发明的实施例中,选择输入信号的信号-噪声比、输入信号为语音的机率,以及系统处理输入信号的可靠度来当作环境参数。而这些环境参数的求取可利用如语音活动检测(voice activity detection,VAD)方式和特征参数遗失补偿(missingfeature imputation,MFI)方式,先得到干净语音信号后,再依此估算出。这些环境参数的估算将再一一详细说明。\n之后,信号是否可识别判别器220在训练语言材料的环境参数经由事先训练后,根据该输入信号的环境参数,判别此输入信号是否可识别成功。当判别可识别成功时,便将此输入信号传送至一般的识别装置225。当判别无法识别成功时,便触发策略响应处理器230,做出多种不同的策略响应,使识别成功机率提高。\n图3是环境参数求取器的一个方框示意图。如图3所示,此环境参数求取器包括信号-噪声比估算器310a、信号为语音的机率估算器310b和系统处理输入信号的可靠度估算器310c。参考此图3,现一一详细说明各估算器估算各相对应的环境参数的方式如下。\n信号-噪声比估算\n由于在实际环境的应用上,背景噪声的影响程度通常直接反应到语音系统的识别率,因此本发明选择输入信号的信号-噪声比当作第一个环境参数。\n首先,信号-噪声比估算器310a利用语音活动检测方式对输入信号y的频谱特征参数检测出语音部分x及非语音部分(噪声)un。之后,语音部分x利用特征参数遗失补偿方式,消除噪声而得到干净语音信号再依据噪声un与干净信号计算出此输入信号y的信号-噪声比的值SNRy。通常输入信号的信号-噪声比越高,则输入信号被识别成功的机率也越大。此输入信号y的信号-噪声比的值SNRy可以下列式子来表示。\n\nSNRy=max(SNR(t))\n其中,SNR(t)为在t时间对输入信号y所估计出的信号-噪声比,输入信号的总时间长度为T。D为输入信号频谱总共的频带个数。代表利用特征参数遗失补偿方式在时间t及频带d所估计出的干净语音频谱特征参数。un(d)为利用特征参数遗失补偿方式在频带d所估计出的噪声频谱特征参数的平均值。SNRy为此输入信号的信号-噪声比的值。\n信号为语音的机率估算\n除了输入信号的信号-噪声比,本发明将输入信号y为语音的机率Py,当作第二个环境参数。测量出属于语音的机率越大,则代表此输入信号越容易被识别成功。\n首先,信号为语音的机率估算器310b利用特征参数遗失补偿方式估计干净信号频谱参数x在时间t与频带d时,输入信号的信号-噪声比的值大于0的机率。\n\n其中,与分别为利用特征参数遗失补偿方式估计的噪声频谱分布的平均值与变异数,ω为噪声值。\n之后,利用特征参数遗失补偿方式估计干净信号频谱在时间t测量属于语音的机率。\n\n其中,D为信号频谱的频带数,T为输入信号的时间长度。\n最后,输入信号y为语音的机率计算方式如下:\n\n系统处理输入信号的可靠度估算\n本发明测量系统处理输入信号的可靠度Ry,来当作第三个环境参数。当可靠度的值越大时,则代表输入信号越容易被识别成功。\n首先,系统处理输入信号的可靠度估算器310c在频谱上测量输入信号y与已知系统模型分布x的差异度(divergence)D(y||x),其公式如下:\n\n其中,p(y)代表信号y的频谱参数机率分布,p(x)为系统模型的频谱参数机率分布。差异度D(y||x)越大,输入信号识别成功的机率越小。\n之后,将此差异度D(y||x)经由一个S型公式(sigmoid function)转换为0到1的可靠度参数Ry。\n\n其中,α与β分别为放大与偏移的微调参数。\n估算出此三个环境参数SNRy、Py和Ry后,信号是否可识别判别器220在训练语言材料的环境参数经由事先训练后,接收输入信号的三个环境参数SNRy、Py和Ry,分析并将输出结果分为可识别成功与无法识别成功两类,如图4的信号是否可识别判别器的方框示意图所示。训练语言材料的环境参数的训练法则的例子如样本分类(pattern classification)方法中的多阶感知力(multi-layer perceptron,MLP)方式。\n如前所述,当信号是否可识别判别器220判别输入信号无法成功识别后,便会触发策略响应处理器230,做出策略响应。策略响应有多种方式,图5所示为策略响应处理器的策略响应的一个范例。此范例中,先响应使用者无法成功识别输入信号,并依照估算出的环境参数告知使用者目前环境及信号质量状况,如标号501所示,引导使用者改善目前环境及信号质量。如:信号-噪声比过低时,如低于一门限值时,请使用者提高音量或更换较为安静的环境。或者系统处理输入信号的可靠度值太小时,如小于一门限值时,则提示使用者提高说话的清晰度等。接着提示使用者重新输入信号或者为其转至人工服务,如标号502所示。\n在一个实验里,以936笔录制的干净语言材料,分别加入五种不同的信号-噪声比(0~20db)的人声噪声(babble noise),仿真噪声环境并产生六组测试集合共5616个测试信号。在噪声的干扰下,算出六组集合的识别率,如图6所示。在干净的环境下,识别率为94.2%。加入不同的人声噪声后,六组集合的测试信号的平均识别率下降为64.8%。\n由此可见,系统识别率会随着信号-噪声比值下降而急速降低,而影响了整体识别率。加入本发明的检测输入语音信号可识别度的方法后,对每个测试信号求出环境参数后,送入信号是否可识别判别器,将判别无法识别成功的输入信号排除,而判别可识别成功的输入信号则直接进入系统识别。图7为无法识别成功和可识别成功的误差率的输出结果。\n图7中,A为识别装置无法识别成功的语句数。B为加入本发明的方法后,对于A的误判(判别为可识别成功)句数。C为识别装置可以识别成功的语句数。D为加入本发明的方法后,对于C的误判(判别为无法识别成功)句数。而识别装置的平均识别率为,进入识别装置且识别正确的总语句数与应进入识别装置的总语句数的比值。也就是(C-D)/(C-D+B)=(3640-807)/(3640-807+453)=86.2%。\n由此可见,在语音识别或对话系统的前级中,加入本发明所提出的方法,则在噪声环境的干扰下,确实能准确地判别信号是否可成功识别,并接收识别成功机率较高的输入信号,将识别装置的效能从原先64.8%提升至86.2%。甚且,排除了识别成功机率较低的输入信号,减少它所带来的影响。\n综上所述,本发明提供一种检测输入语音信号可识别度的系统与方法.本发明是设计在语音识别或对话系统的前级中,检测使用者环境质量状况并且判别输入语音信号可否被系统识别成功.在本发明中,测量输入信号的信号噪声比、输入信号为语音的机率,和系统处理输入信号的可靠度等参数,来代表输入信号的质量状况.并根据上述参数训练出判别器,判别输入信号可否识别成功.若判别可识别成功,便将信号传送至一般的识别装置.若判别无法识别成功,便触发处理器来告知使用者目前环境状况,并提示使用者改善输入信号的质量.\n然而以上所述仅为本发明的实施例而已,不能依此限定本发明实施的范围。即凡是在本发明权利要求书的范围所作的均等变化与修改,皆应仍属本发明权利要求书涵盖的范围内。
法律信息
- 2021-09-24
未缴年费专利权终止
IPC(主分类): G10L 15/26
专利号: ZL 200510108575.6
申请日: 2005.10.12
授权公告日: 2010.05.05
- 2010-05-05
- 2007-06-13
- 2007-04-18
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |