著录项信息
专利名称 | 自动语音-文本转换系统和方法 |
申请号 | CN200980148155.7 | 申请日期 | 2009-11-12 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2011-10-26 | 公开/公告号 | CN102227767A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G10L15/16 | IPC分类号 | G;1;0;L;1;5;/;1;6查看分类表>
|
申请人 | SCTI控股公司 | 申请人地址 | 美国马里兰州
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | SCTI控股公司 | 当前权利人 | SCTI控股公司 |
发明人 | 马克·品森;老戴维·品森;玛丽·弗拉纳根;沙洛克·马坎范德 |
代理机构 | 北京律诚同业知识产权代理有限公司 | 代理人 | 徐金国;谢雪闽 |
摘要
通过以下操作以接近实时的方式执行和改进语音识别:利用事件和事件序列,应用包括增强分类器、组合、检测器和级联的机器学习技术,和使用感知聚类。还使用串连的处理来改进语音识别。一种自动加标点器将标点插入到所识别的文本流中。
1.一种用于识别与数字语音信号对应的语音的系统,所述系统包括:
语音识别引擎,所述语音识别引擎访问:
已知类型的数字化语音话语的训练语料库;
多个弱检测器,其中每个弱检测器包括用于判定事件存在于所述训练语料库中的方法;以及
检测器组,所述检测器组包括多个所述弱检测器,多个所述弱检测器一起工作时比包含的任一个弱检测器都能更好地确定语音信号事件存在;
其中所述语音识别引擎包括:事件提取器,所述事件提取器用于从所述数字语音信号中提取语音信号事件和捕获所述语音信号事件之间的时间关系,其中所述语音信号事件和所述语音信号事件之间的时间关系与语音识别相关;
其中,所述语音识别引擎包括至少一个处理器,所述至少一个处理器经配置以执行多个操作,其中所述多个操作包括:
检测相关语音信号事件在所述数字语音信号中的位置;
捕获所有检测的相关语音信号事件的位置之间的时间关系;
根据所述相关语音信号事件的检测位置,切分所述数字语音信号;
分析切分的数字语音信号,其中所述分析与检测的相关语音信号事件的位置同步;
提供用于经识别的语音数据的感知替代的列表,所述感知替代的列表对应于在所述数字语音信号中检测的模式;以及
根据对一个或多个所述语音信号事件的分析,在用于经识别的语音数据的所述感知替代之间消除歧义,以改进经识别的语音数据;
其中所述系统经配置以输出改进的经识别的语音数据。
2.如权利要求1所述的系统,还包括:
用于响应于所输出的改进的经识别的语音数据的至少一部分而启动至少一个操作的机构。
3.如权利要求2所述的系统,其中所述至少一个操作包括将改进的经识别的语音数据转换为至少一个文本流。
4.如权利要求2所述的系统,还包括:
在改进的经识别的语音数据中检测至少一个命令的机构;
其中所述至少一个操作包括启动对检测的命令的响应。
5.如权利要求1所述的系统,还包括:
已知类型的数字化语音话语的所述训练语料库;
其中所述至少一个处理器还经配置以:
建立所述多个弱检测器;以及
构造所述检测器组。
6.如权利要求5所述的系统,其中所述至少一个处理器经配置以使用增强算法来迭代构造所述检测器组,从而形成增强的检测器组。
7.如权利要求6所述的系统,其中所述至少一个处理器经配置以简化所构造的增强的检测器组。
8.如权利要求7所述的系统,其中所述至少一个处理器经配置以将经简化的构造的增强的检测器组转换为级联检测器。
9.如权利要求1所述的系统,其中所述用于经识别的语音数据的感知替代的列表包括多个感知聚类。
10.如权利要求1所述的系统,其中所述至少一个处理器还经配置以排除所述数字语音信号中不包含一个或多个所述语音信号事件的一个或多个区域。
11.如权利要求1所述的系统,其中所述至少一个处理器还经配置以根据所检测的模式来检测所述语音信号事件的序列。
12.如权利要求1所述的系统,其中所述至少一个处理器还经配置以识别替代的语音征兆以增强识别。
13.如权利要求1所述的系统,还包括:
预切分滤波器;和
特征提取器;
其中所述预切分滤波器经配置以定义用于同步特征计算的间隔;
其中所述数字语音信号的切分是根据定义的间隔的感知差别;以及
其中所述特征提取器经配置以用于从所切分的数字语音信号中提取相对于语音信号事件的特征。
14.如权利要求1所述的系统,其中所述至少一个处理器还经配置以:
将改进的经识别的语音数据转换成至少一个文本流;和
向所述至少一个文本流中自动插入标点。
15.一种语音识别方法,包括以下步骤:
访问:
多个弱检测器,其中每个弱检测器包括用于判定事件存在于已知类型的数字化语音话语的训练语料库中的方法;和
检测器组,所述检测器组包括多个所述弱检测器,多个所述弱检测器一起工作时比包含的任一个弱检测器都能更好地确定语音信号事件存在;
接收语音信号;
数字化所接收的语音信号;
检测相关语音信号事件在所接收的和所数字化的语音信号中的位置;
捕获所有检测的相关语音信号事件的位置之间的时间关系;
根据所述相关语音信号事件的检测位置,切分所接收的和所数字化的语音信号;
分析所切分的所接收的和所数字化的语音信号,其中所述分析与检测的相关语音信号事件的位置同步;
识别与所分析的数字化的语音信号相对应的语音数据,其中识别所述语音数据的步骤包括:
提供用于经识别的语音数据的感知替代的列表,所述感知替代的列表对应于在所述数字化的语音信号中检测的模式;和
根据对一个或多个所述语音信号事件的分析,在用于经识别的语音数据的所述感知替代之间消除歧义,以改进经识别的语音数据;以及
输出改进的经识别的语音数据。
16.如权利要求15所述的方法,还包括以下步骤:
建立所述多个弱检测器;和
构造所述检测器组;
其中构造所述检测器组的步骤包括:
存储多个语音信号,其中所述语音信号包括存储的训练实例,所述存储的训练实例存储在自动语音识别系统中;
从多个存储的训练实例中提取事件模式,其中所述事件模式包括存储的多个语音信号中的区别特征位置;和
迭代执行以下步骤:
访问所述多个语音信号中具有匹配事件模式的采样;
对齐所述采样之中的单个语音信号中的事件,其中所述对齐包括基于所述匹配事件模式,在时间上排列来自所述单个语音信号的所述事件;
评估多个弱检测器检测所述事件模式的效率;
基于所述弱检测器的相对有效性对所述多个弱检测器应用加权方案,其中对最有效的弱检测器加权最高;和
将至少一个额外的弱检测器添加到所述多个弱检测器中;
其中执行所述迭代步骤直到所述加权方案检测所述事件模式的所述有效性达到了设定的有效性标准。
17.如权利要求16所述的方法,其中访问所述多个语音信号中具有匹配事件模式的采样的步骤还包括自动标识所述多个语音信号中包含所述事件模式的区域的步骤,所述自动标识所述多个语音信号中包含所述事件模式的区域的步骤包括以下步骤:
相对于共同的时间轴对齐所述多个语音信号;
将所述单个语音信号的一个或多个事件位置投影到所述共同的时间轴上;和以所述多个语音信号中包含所述事件模式的区域的形式,在所述时间轴上标识具有一定密集度的事件位置的区域。
18.如权利要求15所述的方法,其中访问所述多个语音信号中具有匹配事件模式的采样的步骤还包括自动标识所述多个语音信号中包含所述事件模式的区域的步骤,所述自动标识所述多个语音信号中包含所述事件模式的区域的步骤包括以下步骤:
访问训练集;
将所述语音信号转换为包含有效训练实例中的所有语音信号事件的时间轨迹空间区域;和
重复执行以下步骤:
对于全部所述时间轨迹空间区域计算无效实例的数量;
从无效训练实例中选择该时间轨迹空间的具有最少事件的区域;和
通过进一步的考虑在该选择区域中去除不具有语音信号事件的无效实例;
直到生成根据所述训练集获得完美结果的级联。
自动语音-文本转换系统和方法\n[0001] 相关申请的交叉引用\n[0002] 本专利申请要求于2009年11月11日提交的美国专利申请第12/616723号“自动语音-文本转换系统和方法”以及于2008年11月12日提交的美国临时专利申请第\n61/113910号的权益,这里通过引用而结合其全文于此。\n技术领域\n[0003] 本发明一般涉及自动语音识别。更特别地,本发明涉及通过使用语音信号的最健壮和相关的特征(包括时间信息)以及根据感知聚类推导的模式、并使用新颖的机器学习技术处理该信息来改善自动语音识别的技术。\n背景技术\n[0004] 语音感知信息不均匀地分布在频率、振幅和时间中。在每个方面,语音都是高度可变的。大多数自动语音识别系统以单一标度的均匀分隔的间隔来提取信息。在人类语音感知上,已知可以通过时间特征来辨别一些语音类型,但是在典型的现有技术语音识别系统中,并没有充分利用语音的时间特征。\n[0005] 大多数现有技术的自动语音识别系统包括使用均匀的短持续时间(典型地为\n20-30毫秒)分析帧、以均匀的时间步长(典型地为10-15毫秒)从语音信号中提取信息的过程。基于单一短时观测向量进行语音分类是不可靠的,因为语音信号是高度动态的,并且随着各种语音的发出而不断变换。事实上,必须使用长时模式来构建可用的系统。\n[0006] 本领域已知的一种可实现较长时模式的方法是,保存多个短时观测向量,然后将其同时提供给语音分类器。这种方法使用的分类器通常为人工神经网络或相关模板。虽然保存短时观测向量带来了改善的结果,但是仍然存在一些问题。\n[0007] 首先,对于所有基于帧的方法都常用的这种均匀时间步长采样与语音信号不同步。因此,语音事件与观测帧的关系是随机的。这就导致增加了所提取特征和时间细节量化的可变性。\n[0008] 其次,基于均匀分析帧的提取不是最优的。用于感知人类语音的信息以许多不同的时间标度产生。例如,发“t”音的爆破音的时长可能只有几毫秒的持续时间,而一个元音可以维持超过一秒。一个由许多短时观测构成的序列不能提供与长时观测相同的信息,反之亦然。\n[0009] 语音的一些特征在时间维度上是高度可变的。例如,元音维持的长度取决于说话者、语速、该元音是否重音音节以及包含该音节的单词位于语句中的什么位置。这种时间可变性使得语音信息移动到不同的相对观测帧,显著增加了相同语音类型的不同实例的提取值的可变性,并且使得在存储器中检测有意义的模式变得困难。\n[0010] 此外,基于帧的系统还通常将所有帧看作是同等重要的。相反地,人类感知使用信号中具有最佳信噪比、并且包含与进行所需要辨别最相关和最可靠的那些特征的部分。\n[0011] 大多数现有技术的自动语音识别系统使用了隐马尔可夫模型。隐马尔可夫模型是随机状态机。隐马尔可夫模型将从观测向量估计的类型概率映射到隐含(未观测到的)类型概率的可能序列。通过使用隐马尔可夫模型,可以允许每个非输出状态转移到其自身,从而解决了上述的时间可变性问题。通过使用自转移状态,“吸收”了时间可变性。遗憾的是,除非该方法被修正为清楚地提取时长信息,否则该方法会将不想要的和想要的时间信息一起去除。语音事件的时间关系携带了用于感知语音、特别是用于辨别爆破音、塞擦音和摩擦音的重要信息。另外,类型概率的健壮估计需要巨大数量的训练数据。当使用条件与训练条件不同时,该概率估计会变的非常不准确,从而导致识别效果很差。\n[0012] 大多数现有技术的自动语音识别系统使用的特征主要是从短时谱轮廓推导出的。\n这种方法被经常使用,是因为许多语音具有某种特性频率峰值,被称为“共振峰”。目前的其他系统所采用的一种非常不同的方法的关注点在于频带的长时轨迹(trajectories)。在一种称为TRAP(时间模式)的方法中,语音被建模为声音实例的平均长时期(~1秒)轨迹。\n基于语音信号包络与每个TRAP模型的相关性来执行分类。据报告,这种方法的一些版本获得了可与短时谱方法相比的结果。这些结果表明,对于辨识语音有用的信息在时间上的分布超出了音素切分的边界。由于在该方法中使用了平均和加窗,因此在TRAP中心附近的信息相对于更远处的信息被加强。TRAP捕获总的趋势,但是不捕获时间细节。\n[0013] 用于替代基于帧的特征提取的另一种方法是在被称为“事件”的某些可检测信号条件的位置处切分语音。每个被切分的部分被认为具有单独的类型特性。通常采用动态时间规整来执行与模型的时间对齐,这使得能够将该特征轨迹投影到一个共同的时间标度上。然后,在该规整后的时间标度上,对该特征轨迹再次采样,并将其与一个模板相关,或者将其用作隐马尔可夫模型的观测量。该动态时间规整的过程去除了该语音切分的大部分的时间可变性。然而,对于基于事件的方法来说,寻找可靠的切分事件是一个难题。事件的插入或删除会导致严重的错位。\n[0014] 很显然,现在需要一种改进的技术以提高自动语音识别的效率和有效性。\n[0015] 人类语音感知在很大程度上依赖于语音信号中的事件的相对定时。语音感知的征兆存在于各种时间标度上,并且可能在时间上与该感知本身偏移。改变语音事件的时间关系会改变该语音的感知。在B.Repp等人撰写的Perceptual Integration of Acoustic Cues for Stop,Fricative,and Affricative Manner(Journal of Experimental Psychology:\nHuman Perception and Performance 1978,Vol.4,Num.4,621-637)中通过感知实验对此进行了证明,其中对静音和摩擦的持续时间进行了控制。一种这样的实验在单词“Say”和“Shop”之间插入了较短的静音间隔,其导致听众听成了“Say Chop”。关于事件的相对时间如何影响感知的另一个例子被称为话音起始时间,通常缩写为VOT。VOT是从塞音被释放到声带开始振动所经历的时间长度。VOT是用于辨别各种闭塞福音的重要特征。定时的重要性还可从语音现象的持续时间可变性上得出。一些可察觉的语音现象是非常短暂的,而另一些是很长的。例如,音素标记的英语语音的语料库TIMIT具有时长小于5毫秒的塞音爆破段,而一些元音片段持续超过500毫秒。\n[0016] 虽然相对事件定时是重要的感知提示,但是最常用的特征提取方法并不对语音事件的定时敏感。几乎目前所有的语音和说话者识别应用都是通过利用一种信号切分方法来提取特征,该信号切分方法基于以固定步长在时间上步进的固定长度分析帧。因为这些分析帧的长度是固定的,所以它们几乎总是显著短于或长于它们试图捕获的感知现象的长度。\n[0017] 虽然该常用方法很容易实现,但是该方法使得特征提取易受到信号与第一帧起始点之间的随意关系以及该分析帧长度与各种语音现象的时间标度之间的随意关系的影响。\n在S.Basu等人撰写的Time shift invariant speech recognition(ICSL P98)中描述的一种基于帧的语音识别系统是基于以10毫秒步进的25毫秒帧,对于该信号与少于10毫秒的第一帧之间的起始关系的移动导致“前端所产生的谱估计和[me-频率倒谱系数]的显著改变,进而使得该同一数据库的单词错误率出现达到[10%]的变化”。\n[0018] 语音信号中存在许多可变源:例如说话者的声道长度、口音、语速、健康状况和情感状态以及背景噪声等。然而,Basu等人报告的变化完全是由于使用了一种特征提取方法造成的,其中帧尺寸和帧对齐与该信号的具有随意的关系。在授予Ittycheriah等人的美国专利第5956671号(1997年6月4日提交)中公开了一种技术,其目的是减少由分析帧与语音信号之间的随意关系导致的特征可变性。他们的发明的一个方面通过将信号的多个时移(time-shifted)版本提交给固定帧分析过程作为单独的训练实例,从而扩大了训练集的可变性。他们还公开了一种用于识别时间的技术,其中通过将固定帧分析的结果平均到该信号的多个时间延迟版本中来计算该特征值。\n[0019] 这些技术不能彻底缓解由于使用固定帧和固定时间步长提取特征所导致的问题。\n而且,扩大实例的数量增加了训练时间,并且将原始语音信号中没有的额外可变性加入到模型中。时移平均增加了计算复杂性,并且会将一些与感知相关的语音特性“平均掉”。\n[0020] 在授予Moncur的美国专利第6470311号(1999年10月15日提交)中,一种浊音语音的基频同步切分方法解决了同步问题,该方法是基于中心频率约等于基频(pitch)的带通滤波器的输出的正过零点。使用在一些非特定时间帧上计算的平均基频周期来切分清音语音。应当注意的是,已知低信噪比条件和具有小DC信号偏移的信号会使得基于过零点的切分产生问题。对于高质量语音信号,Moncur的方法在浊音语音期间相对于常用的固定帧分析方法有所改善。遗憾的是,对于清音语音,该方法又恢复为随意的固定帧和时间步长。该固定帧和时间步长的使用仍然不能解决例如闭塞和塞音爆破等事件的准确位置。另外,也完全没有提供对于耳语语音的解决方案。\n[0021] 显然,需要一种能够与语音信号本身的事件同步地提取特征的解决方案,而不是通过与语音现象具有随意和变化的关系的固定统一帧来实现。该切分技术应当应用到包括浊音和清音语音的整个信号中。此外,应当在适合于每个被检测的特定类型事件的时间标度上进行语音分析。\n[0022] 目前典型的自动语音识别引擎要等待检测到静音后才分析和产生输出,因为这样就能够自然切分,从而由于增加的语境而得到更高的准确率。等待言语的结束会导致输出存在从5秒到25秒不等的延迟。当一个应用必须近乎实时产生输出时,例如在自动生成用于电视广播的隐藏字幕的应用中所需的,更小的切分将减少可用于分析的可用语境,并且预期和产生更低的准确率。对于这些类型的应用,需要较高的准确率和较低的等待时间。\n发明内容\n[0023] 本发明的一些实施例涉及用于语音识别的检测器和分类器的自动学习。更特别地,本发明是针对检测器和分类器的自动学习,其目的是获得语音信号的最健壮和相关的方面以用于所面临的特定检测或分类任务。\n[0024] 本发明的一些实施例涉及提取语音信号中表示该信号显著特征的尖峰或事件。这些实施例还涉及捕获事件之间的时间关系。在当前优选的实施例中,使用加权分类器的方案来提取事件。本发明的一些实施例涉及构造用于自动语音识别引擎的加权分类器方案。\n本发明的一些实施例涉及检测事件序列而不是检测单个事件,或者两者都检测。在本发明的一些实施例中,改进了基于替代征兆(alternate cues)的检测器。\n[0025] 在本发明的一些实施例中,使用自适应增强算法来提高识别性能。本发明的一些实施例包括用于降低由自适应增强算法产生的组复杂性的过程。\n[0026] 在本发明的一些实施例中,一种自动创建基于事件的检测器级联(detector cascades)解决了从高度不平衡的训练集学习或学习检测稀少对象的问题。所得到的检测器级联通过在前期消除大部分无用实例而提供了对于稀少对象的有效检测。\n[0027] 在本发明的一些实施例中,执行了将语音分类为感知聚类的过程。于是该过程就消除了候选感知之间的歧义。\n[0028] 本发明的一些实施例涉及在感知重要的位置切分语音信号。这提供了一种不仅能够提取感知相关的定时,并且能够将语音事件与信号分析同步的方式,从而避免了不同步固定帧分析的所有问题。该方法首先使用低复杂度滤波器基于人类感知的某些方面和他们希望检测的语音现象来进行预切分。这些滤波器检测表示语音起始、闭塞、爆破、声门脉冲和其他重要语音信号事件的感知模式的位置。该预切分事件定义了用于同步特定特征计算的时间间隔。已被同步提取的特征模式被进一步处理以生成在更长时间标度上的特征,并且检测更高层次的感知事件例如音素边界、音节核(syllable nuclei)等。\n[0029] 优选地,高级语音识别系统使用所有这些技术。在本发明的一些实施例中,在一个自动语音识别系统中使用多种方法。该系统接收语音输入,对该语音输入应用一种或多种处理手段,判断哪种处理手段是最正确的,并且输出所得到的文本流。在目前优选的本发明实施例中,在实时电视隐藏字幕和字词识别环境中使用该自动语音识别系统。(其他实施例实际上可包括任意形式的语音转写(speech transcription),包括为会议或电话会议加字幕或转写、实时听写或将口头电话消息转换成文字形式。)本发明的一些实施例涉及使用n个串连的并行自动语音识别引擎以时间交叠促发模式处理语音信号以减少等待时间。本发明的一些实施例涉及在未加标点的文本中自动插入标点符号。\n附图说明\n[0030] 图1示出了根据本发明的一些实施例用于自动语音识别引擎的处理模块中以构建加权分类器方案的工作流程的示例;\n[0031] 图2示出了根据本发明的一些实施例用于在多个包含事件的语音信号中自动标识区域的工作流程;\n[0032] 图3A示出了根据本发明的一些实施例的事件的时间关系;\n[0033] 图3B示出了根据本发明的一些实施例计算出现在网格时间单元中的事件;\n[0034] 图3C示出了根据本发明的一些实施例的基于事件的总和映射的结构;\n[0035] 图4示出了根据本发明的一些实施例的用于构建检测器级联的工作流程400;\n[0036] 图5示出了根据本发明的一些实施例的包含来自所有有效实例的事件的区域的例子;\n[0037] 图6A示出了根据本发明的一些实施例的、在时间特征空间中包含来自所有有效实例的事件的区域的例子;\n[0038] 图6B示出了根据本发明的一些实施例的包含来自所有有效实例的事件的非对齐区域的例子;\n[0039] 图6C示出了根据本发明的一些实施例的包含来自所有有效实例的事件的非矩形区域的例子;\n[0040] 图7示出了根据本发明的一些实施例的、在一个区域投影中的最大几何边界与最紧密和最松散边界的关系;\n[0041] 图8A示出了根据本发明的一些实施例的自动语音-文本转换系统的示意图;\n[0042] 图8B示出了根据本发明的一些实施例的自动语音-文本转换系统的示意图;\n[0043] 图8C示出了根据本发明的一些实施例的用于事件识别和字词识别的系统的示意图;\n[0044] 图9示出了根据本发明的一些实施例的语音信号切分的示例;\n[0045] 图10示出了根据本发明的一些实施例用于计算感知变化的感知对比度公式;\n[0046] 图11A示出了根据本发明的一些实施例的圆形队列存储器;\n[0047] 图11B示出了根据本发明的一些实施例的更新的圆形队列存储器;\n[0048] 图11C示出了根据本发明的一些实施例的更新的圆形队列存储器;\n[0049] 图12示出了根据本发明的一些实施例用于保持两个运行总和的分段圆形队列;\n[0050] 图13示出了根据本发明的一些实施例的分段圆形队列;\n[0051] 图14示出了根据本发明的一些实施例的声门脉冲检测器对于一个浊音语音小片段的输出表示;\n[0052] 图15示出了根据本发明的一些实施例的音节核检测器的示意图;\n[0053] 图16示出了根据本发明的一些实施例用于执行共振峰提取的工作流程;\n[0054] 图17示出了根据本发明的一些实施例用于执行谐波提取的工作流程;\n[0055] 图18示出了根据本发明的一些实施例在时间上交叠对一个语句序列工作的两个串连处理引擎的示意图;\n[0056] 图19示出了根据本发明的一些实施例的包括自动标点添加器的语音-文本转换系统。\n具体实施方式\n[0057] 本发明涉及用于语音识别的检测器和分类器的自动学习。更特别地,本发明是针对检测器和分类器的自动学习,其目的是获得语音信号的最健壮和相关的方面,包括用于即将发生的特定检测或分类任务的时间信息。\n[0058] 在当前优选的本发明实施例中,该自动语音识别系统被用于实时电视隐藏字幕和字词识别环境中。\n[0059] 虽然自动语音识别在这些年得到了一定的发展,但是它仍然不能达到人类的能力。对于人类听众不会造成困难的噪声水平常常会导致现有的自动语音识别系统不能工作。而且,准确率的提高是以增加处理时间和计算复杂度为成本而实现的。在很大程度上,这些困难是由于人类用于语音感知的信息不均匀地分布在频率、振幅和时间上而导致的。\n大多数自动语音识别系统将时间上的所有点视为与语音感知同等相关,并且基于相同的特征集合进行所有类型判定。另一方面,人类似乎能够选择语音信号中与实现感知所需的区别最相关和健壮的那些方面。\n[0060] 人耳中的神经接收元将声学信号转换为与其动态振幅和频率分布特性相关的尖峰的时间模式。该尖峰时间模式编码该信息并将其传送给大脑神经元以进行进一步处理。\n该神经元和突触(synapses)构成了大脑的计算单元,其使用尖峰模式对信息编码并将该信息互相传输。人类神经组织的模式识别的高效和有效性是非常卓越的。尖峰编码生成了该信号的非常稀疏的表示。在人类感知的某些方面的启示下,本发明将从语音信号中提取的信息编码为尖峰,这里称之为“事件”。\n[0061] 在目前优选的本发明实施例中,基于事件的提取关注于信号的显著方面,并且捕获这些方面的时间关系。一种事件的示例是频率通带的能量包络中的峰值。该峰值是语音信号的每个频带中语音能力相对于背景噪声最强的位置。峰值与事件序列之间的时间距离与所说的内容非常相关。事件提取并不限于从带通滤波器中寻找包络峰值。其他事件包括起始、结束以及通过更复杂的信号分析生成的事件,包括子模式检测器的输出。基于任何已知方法的分类器和检测器通过当检测到它们被设计的条件时触发它们,可以被结合到该事件模式中。\n[0062] 构建相关的自动检测器和分类器\n[0063] 如这里所使用的,术语“分类器”是指将类型标签分配给特征向量、事件和/或事件序列的方法和设备。检测器是将类型标签“存在”或“不存在”分配给特征向量、事件和/或事件序列的分类器。\n[0064] 弱分类器是判定函数,其执行效果比偶然性(chance)好。通过组合多个弱分类器的结果可以形成分类器组(ensemble classifiers)。增强(boosting)是现有技术已知的用于通过选择和加权弱分类器来自动构造分类器组的方法,其使得组判定好于任一弱分类器的判定。该选择是这样进行的,即从一个相对较大的弱分类器的集合中循环评估每个弱分类器,并选择对一个已标记训练实例的加权分布具有最佳性能的那一个弱分类器。该选择的弱分类器被添加到所述分类器组中,并且基于其错误率为它的判定结果分配一个权重。\n然后对该分布权重进行调整以加强由该分类器组产生的错误,并且开始下一个循环。由于那些没有被正确分类的实例在该分布中被强化,所以倾向于改正该分类器组错误的弱分类器就被添加到随后的步骤中,从而改善该分类器组的整体判定。\n[0065] 已经证明,增强(boosting)可以产生具有良好泛化特性的分类器。该弱分类器可以采取任何形式,只要它们的性能比偶然性好即可。\n[0066] 一种执行时间模式分类的方法是以多个固定间隔采样特征轨迹(feature trajectories),并且将所有时间特征点表示为单独的特征。典型地,使用固定数量的时间特征点进行分类。利用固定数量的时间特征点,通过该特征向量的定义,建立一个实例中的信息与另一个实例中的信息之间的对应关系。\n[0067] 根据本发明当前优选的实施例,使用一种不同的方法。由于特征轨迹的均匀采样会丢失采样之间的细节,并且均匀采样产生许多包含小辨别信息的采样,所以取而代之地,本发明对与事件相关的特征轨迹进行采样。事件是该轨迹中显著信息集中的点。基于事件的提取形成该信号的稀疏表示。这种方法需要改进通常用于其它语境例如图像处理中的定义弱分类器的方法,因为给定类型的实例可能具有给定种类的零、1或多于1个事件,所以需要一种建立一个实例中的信息与另一个实例中的信息之间的对应关系的方法。\n[0068] 特征值、事件和事件模式可以提供与该检测器的目标类型一致的证据(evidence)或者可以提供相反证据。该事件的种类以及事件之间的时间关系构成了检测或未检测到目标类型的证据的重要部分。遗憾的是,未实现同一话语的不同实例中的事件模式之间的精确对应。另外,噪声会导致伪事件或丢失事件,并且语速会导致事件序列中的时间变化。通常机器学习技术被设计成使用固定长度的特征向量。利用固定长度的特征向量,每个有效和无效训练实例对于每个特征总是具有一个值,并且可以在该特征向量中的相同索引位置找到每个实例之间的特征值的对应。与固定长度特征向量中的值不同,事件和事件模式可以存在或不存在,并且相互之间可以具有在一定程度上不同的时间关系,从而导致很难确定一个实例中的哪些事件对应于另一实例中的事件。\n[0069] 本发明提出了一种可以确定实例之间的事件对应以及事件模式的方法,从而可以利用时间信息来生成用于已增强学习器组的弱检测器。\n[0070] 在本发明目前优选的实施例中,时间起点与特定种类的事件相关联,并且所有实例的时间起点被对齐。利用相对于该时间起点定义的间隔来界定表示语音某个方面的事件的时间变化。对于给定的间隔,如果存在使得(特定种类的)的事件落入有效类型和无效类型的间隔内的一致性方面的差别,则可以利用该差别来形成一个弱检测器。在本发明的一些实施例中,基于实例的音节核事件的位置来对齐这些。在本发明的一些实施例中,相对于每个集合中的事件之一来对齐具有两个或更多事件的多个集合。\n[0071] 为了基于与事件相关的肯定信息形成可用的弱检测器,定义该弱检测器的间隔必须包含大部分有效实例中的事件,并且必须不包含大部分无效实例中的事件。可以通过评估包含大部分有效实例的事件的所有间隔来系统地确定这种间隔。首先,通过基于特定的共同事件对齐而使这些实例变成大致时间对应。可选地,可以对不同总时长的实例进行缩放以使其具有共同长度。通过以下操作可以有效地发现一致的间隔:首先对于所有实例,在二维空间中排列来自不同传感器(例如频带传感器)的事件,并且在每一事件的左侧记录上述事件的加权数量的累积和。然后可以通过该累积加权计数中的简单差别来确定任意矩形间隔内的事件数量。对基于包含了大部分实例的事件的每个间隔的弱检测器进行评估,并且保留对于当前加权分布效果最好的检测器。对于整个训练集评估该组合检测器,并且针对所产生的错误调节该分布权重。\n[0072] 根据上述过程添加弱检测器,直到该检测器的性能对于训练样本达到完美或者到达最大迭代数。\n[0073] 图1示出了用于构造自动语音识别引擎的处理模块中使用的加权分类器方案的工作流程100的例子。在本发明当前优选的实施例中,该加权分类方案被用于自动语音识别引擎的分类模块中,如以下参照图9所解释的。图1的流程100开始于将多个语音信号存储为训练集101、然后从该训练集中提取事件模式102开始,其中所述事件模式包括该语音信号的特性方面。接着,访问具有相匹配事件模式的语音信号样本103,并且基于该语音信号中发生该事件的时间位置将其对齐104。然后可选地将每个信号缩放为共同的时间长度105。\n[0074] 一旦该提取的信号被缩放到具有匹配事件位置的共同时长,就对该信号应用多个弱检测器,并且测试每个弱分类器自身检测事件的能力的有效性106。基于该测量的有效性对该弱分类器加权,其中使那些性能较好的弱分类器获得较高的系数,而那些性能较差的弱分类器获得较低的系数。\n[0075] 接着,测试该加权方案的有效性,以基于预定的有效性阈值来判断该加权是否足以识别出该训练集中的事件108。该流程询问(query)该加权是否足以识别出事件109。如果该加权方案足以完成该任务,则流程100存储该加权方案并结束110。另一方面,如果该加权方案不足以完成该任务,则向之前应用的弱分类器群组中增加额外的弱分类器111,并且该流程重复直到满足该有效性阈值水平。\n[0076] 给定话语的不同实例的事件模式具有一些相似性,然而在任意两个语音事件之间都未发生事件的准确对应。如果对不同实例的事件指定共同的时间参照,例如使其相对于音节中心,则给定语句的不同实例的对应事件将出现在该时间传感器平面中的一个区域内。语音是高度变化的,并且对于感知最有用的信息不均匀地分布在频率、振幅、时间和时间标度上。因此,使用单个恒定的标度或形状不能有效地在该时间传感器平面中规定包含提供某些感知信息的事件的区域。然而,在计算上很难实现完全评估可能包含相关对应事件的集合的所有可能的位置、形状和区域标度。因此,定义了一个过程,其自动标识对于语音感知有用的对应事件的区域。\n[0077] 多个有效训练实例中的第一个事件被设置成相对于一个共同的时间参照点例如音节中心,并且将该事件投影到该时间轨迹平面上。可选地,在投影之前,可以对该多个模式进行缩放以使它们的时长都等于1。时间轨迹平面中包含大部分有效实例中的事件的区域被保留为对应事件的潜在聚类。这些区域的列表被形成并且被用于构造弱检测器的所有随后步骤。\n[0078] 图2示出了根据本发明一些实施例的用于自动标识多个语音信号中包含事件模式的区域的工作流程200。该流程200从将语音信号训练集中的一组语音信号相对于一个共同时间轴对齐201开始。接着,该流程200可选地将该组中的每个单独语音信号的时长缩放到一个共同的时间单位时长202,并且将该语音信号的音节中心和该语音信号的事件中心投影到该共同的时间轴203。最后,该时间轴上音节中心和事件中心高度密集的区域就被标识为包含事件模式的区域204。\n[0079] 除了所述的用于标识事件高度密集区域的技术之外,本发明还涉及用于排除不可能获得健壮的弱检测器的区域的多种技术,包括但不限于事件集成映射、实例密度约束的应用、排除冗余区域以及这些技术的组合。\n[0080] 事件集成映射\n[0081] 在本发明的一些实施例中,使用一种事件集成映射过程来排除那些不可能获得有用的弱检测器的区域。\n[0082] 图像处理技术领域中已知的一种能够迅速计算矩形区域上的像素密度值之和的技术被改进,以使得能够基于该区域中的事件计数来迅速排除不可用区域。在原始的图像处理技术中,第一步是计算“总和映射”,其中该映射的每个单元对应于由该单元处的拐角以及原点处的对角方向相对的拐角所限定的矩形区域中的像素值之和。当计算出这种总和映射之后,就可以通过两个减法和一个加法操作来确定该图像的任一矩形子区域的像素和。该“总和映射”技术被修改以适用于迅速消除那些无法包含多于特定数量实例中的证据的区域,这通过用叠加在该时间轨迹平面上的网格的每个网格单元中的事件计数来替换该像素密度值而实现。当计算出网格单元事件计数的总和映射后,就可以仅仅使用两个减法和一个加法操作来确定任一矩阵区域中的事件数量。获知该区域中的事件数量并不等同于获知该区域中的实例数量,但是它建立了上限。因此,任何不具有大于或等于所需实例数量的事件计数的区域都不可能包含所需数量的实例。\n[0083] 图3A-3C示出了根据本发明一些实施例的基于事件的总和映射的结构。在图3A中显示了该时间轨迹平面中的事件模式。在图3B中,叠加网格的边界内出现的事件计数被确定。在图3C中示出了一个总和映射,其中每个单元包含以原点为一个拐角并以该单元作为对角方向的相对拐角的矩形区域中的计数总和。为了确定图3C的中央四个单元中的事件数量,从待处理区域的右上单元中的值(在本例中为“7”)中减去其左边的未包含区域的值(在本例中为“3”),同时减去其下方的未包含区域的值(在本例中为“4”),再加上处于该两个被减去区域的交叉点的被过多减去的区域(在本例中为“2”)。该结果是该区域中的事件数量,在本例中为“2”(7-3-4+2=2)。确定任何大小或形状的区域的事件数的计算量与此相同。\n[0084] 事件密度约束\n[0085] 在本发明的一些其他实施例中,利用事件密度约束的应用来排除那些不可能获得有用弱检测器的区域。例如,可选地,可以应用最小密度约束来排除事件密度低于特定量的区域。\n[0086] 冗余区域排除\n[0087] 在本发明的一些实施例中,那些不可能获得有用弱检测器的冗余区域被排除。那些包含其他区域但是相对于已包含区域没有再增加额外有效事件的区域不被添加到该区域列表中。\n[0088] 再次参照图2,一旦该区域被标识出来,它们就形成了用于产生弱检测器的约束条件。该弱检测器可以包括一个简单测试以用于判断给定实例是否具有该区域内的任何事件,或者可以基于具有该区域内事件的有效实例的特征值范围将其扩展为包括额外的约束条件。\n[0089] 基于事件序列的语音识别\n[0090] 一般地,在自动语音识别中,事件序列是比它们所包含的单个事件更强大的辨别器。本发明的一些实施例涉及检测事件序列而不是检测单个的事件,或者两者同时检测。\n[0091] 在本发明的一些实施例中,通过使用时间传感器空间中的(可能被缩放的)间隔作为坐标,将事件序列定位为超空间中的点。为了理解这个概念,考虑由单个传感器产生的包含三个事件的序列,其中第二个事件在第一个事件之后两个时间单元,第三个事件在第二个之后四个时间单元。这三个事件相对于彼此的时间序列被表示为坐标(2,4)。可以通过计算投影点之间的距离函数来判断该时间序列的相似性。例如,可以使用欧几里得距离来实现这一目的。为了评估哪些序列可以一致地出现(或不出现)在该实例中,按照如前所述地投影一个有效实例中的事件序列以形成一组标准点,其表示可与该有效实例相关联的可能序列。标准点是基于该第一实例中的每个点的坐标而定义的,并且每个标准点的相关计数都被设为1。以与第一实例相似的方式使用其间隔为坐标将其余有效事件的事件序列投影为超空间点。当每个序列点被生成时,将其与最接近的标准点相关联。该序列点被添加到与该标准点相关联的列表中,并且将该标准点计数增加1。然后调整该标准点的坐标以使其变为其相关联的实例点的坐标的中间值。当所有实例都处理完以后,具有最高计数的标准点就表示与该类型高度相关的事件序列。该标准点的坐标表示与该序列中第一个事件相关的区域的相对中心。可以通过该相关实例序列的变化来确定该区域的大小和形状。\n在本发明的一些实施例中,可以希望合并类似的序列。通过其在投影超空间中的距离可以很容易地确定用于合并的候选者。\n[0092] 在本发明的一些实施例中,该过程寻找区域的组合,其检测那些看起来频繁与目标类型同时出现的事件序列。这些作为弱检测器的有用性取决于当不存在目标类型时较低频率的同时出现性。\n[0093] 这里所述的该过程包括用于发现那些提供有效类型的确切证据的事件序列的过程。相反证据也是有价值的。为了发现相反证据,上述过程被重复,但是这次是使用无效实例来执行。基于在无效实例中以一定频率重现但是从不或很少出现在有效实例中的序列,来形成抑制性弱检测器。\n[0094] 在本发明的一些实施例中,可通过使用自适应增强算法形成弱检测器组,以处理不平衡的训练集或者获得更低复杂性的检测器。\n[0095] 通过简化增强组来改进性能\n[0096] 在本发明的一些实施例中,使用自适应增强算法来提高识别性能。自适应增强算法涉及顺序调用弱分类器、测试这些分类器以及由此调整加权系数的迭代过程。自适应增强算法通过每次迭代增加一个弱检测器来形成分类器组,不预测也不纠正之前的权值。因此,最后的分类器组将会比所需要的更复杂。\n[0097] 本发明的一些实施例包括减少通过自适应增强算法生成的组的复杂性的过程。根据这些实施例,在该检测器对训练集获得完美结果或者达到最大数量循环后,执行一个简化过程。将该复合检测器的性能与其自身迭代地比较,其中每次去除其弱检测器中的不同的一个。如果去除任一个弱检测器会提高错误率,则执行获得最大改进的去除,否则,如果去除任一弱检测器都不会增加错误率,则去除一个这种弱检测器。该过程继续直到不再有弱检测器被去除。\n[0098] 在本发明的一些实施例中,使用一种在增加新检测器时更新该组的所有权值的线性编程增强算法来构建组。\n[0099] 替代征兆检测\n[0100] 当语音信号的一些方面被破坏时,人类语音感知能够依赖于替代征兆\n(alternative cues)实现。类似地,可以在语音样本中找到替代征兆,并且可以在自动语音识别系统中检测它。\n[0101] 在本发明的一些实施例中,通过按照上述形成检测器组的步骤,并且重复该过程,以便利用不会被在前生成检测器所使用过的弱检测器用于构建后续检测器的约束条件来形成后续检测器,从而改进基于替代征兆的检测器。这将最大化该检测器的独立性。然后可以将多个替代征兆检测器组合成一个组以形成能够容忍这些变化的检测器。\n[0102] 将组自动转换为级联检测器\n[0103] 该组的总判定是该单个检测器的加权和。在该组的标准形式中,必须对所有弱检测器进行评估以获得语音判定。在本发明的一些实施例中,将该检测器组转换为级联检测器,这样减少了必须平均评估的弱检测器数量。通过将该弱检测器从强到弱排列并且分析在每一阶段的和与最后结果之间的关系,可以建立“早出(early out)”阈值以将该组转换为检测器级联。\n[0104] 各个事件的相对定时包含对于语音感知很重要的信息。可以通过考察给定单词、音节、音素等的多个实例中的对应事件的持续模式来利用这种信息。这种分析是很有挑战性的,因为语音在每个方面都具有可变性并且不同的感知征兆出现在不同的时间标度上。\n[0105] 然而,如这里所解释的,大多数机器学习分类技术被设计成基于同质信息(homogenous information)的固定长度向量来学习判断。利用基于事件的提取,根据信号条件发生或不发生事件。这就意味着给定实例可以具有比同一音节、单词、音素等的另一实例更多或更少的事件。为了有效地使用基于事件的提取来训练检测器,有必要发现来自音节、单词、音素等的一个实例中的哪个事件对应于其他实例中的相同感知支持(support)。\n在本文的稍后部分描述了自动定位这些对应事件的边界的方法。\n[0106] 自动使用训练实例发现相关支持和相反信息并且确定权值以做出检测判断的方法和技术\n[0107] 用于高度不平衡训练集的基于事件的级联\n[0108] 在本发明的一些实施例中,一种自动生成基于事件的检测器级联的方法解决了从高度不平衡的训练集学习或者学习检测稀疏对象的问题。所得到的检测器级联通过在前期消除大部分无效实例而提供了对于稀少对象的有效检测。\n[0109] 在本发明的一些实施例中,生成基于事件的检测器级联涉及生成用于很少出现的特定单词的检测器。检测稀少单词仅仅是用于例示本发明,在本发明的启示下,其他检测应用对于本领域普通技术人员来说也是显而易见的。例如,其他一些技术包括检测子单词(sub-word)语音类型,例如特定音节、特定音素、宽(broad)音节类型和宽语音类型。此外,本发明还可用于许多与语音识别不相关的应用,例如工业过程监控、自动系统故障检测和机械装置监控。\n[0110] 利用试图最小化错误总数的机器学习技术不能很好地处理具有较少有效实例和许多无效实例的高度不平衡训练集。当有效实例很少出现时,例如出现率为100,000,000分之一,则不能检测到其出现的检测器将具有非常低的错误率(错误率=0.00000001)。然而,即使因为它从不会做出错误检测而具有低错误率,它实质上也是没用的。\n[0111] 属于一个类型的成员的对象共享其值落在特定范围内的特性。因而,具有其值落在那些范围之外的特性的对象将被完全排除,因为其不属于该类型。然而,具有其值不完全在该范围内的特性的对象可以具有一些其值落在与该类型相关的范围内的特性。因此,如果一个对象具有单个范围外的特征值,就有可能取消它的类型身份。事实上,在本发明的一些实施例中,确认类型身份通常需要所有相关的特征值都处于与该类型一致的范围内。\n[0112] 当应用到语音识别中时,基于事件的特征提取生成了一个稀疏表示,其保存了与识别包括该时间信息的语音类型最相关的信息。一种可被提取的事件的一个实例是在特定特征轨迹的包络中出现峰值。特征轨迹包络例如可以在该语音信号通过特定的带通滤波器时,根据其输出计算出来。当许多这种轨迹被计算出来时,该事件就被分布在时间轨迹空间中。对于单词类型标识有用的所有证据都与时间轨迹空间中的事件相关。当相对于一个共同的时间参照例如音节中心来形成事件时间,并且来自该同一类型的多个实例的事件被绘制在时间轨迹空间中时,就形成了包含相关事件的聚类的区域。\n[0113] 这些包含聚类的区域的位置、形状和标度都是该类型特有的。这些区域中的一些将与该类型强烈相关,其中该类型的所有有效实例都具有落在该区域中的事件。如上所述,不具有落在这种区域中的事件的对象将被排除而不能作为该类型的一员。大量特征值可以与每个事件相关。与落在区域内的有效类型实例中的事件相关的每个特征的值的范围形成了在空间的额外维度中的间隔。一个对象必须具有如下的事件,该事件具有属于每个相关特征维度的范围内的值从而被接受为类型成员。将一个非类型对象与该类型的所有对象区分开的特性可以与将另一个非类型对象与该类型的所有对象区分开的特性不同。\n[0114] 根据本发明的一些实施例,可以自动发现这些相关的考虑因素以生成检测器。图\n4示出了根据本发明一些实施例生成检测器级联的工作流程400。\n[0115] 该工作流程400通过初始化该检测器级联以包含零检测器阶段开始401。接着,该时间轨迹空间中的包含所有有效训练实例中的事件的所有区域被标识,并且计算具有落在每个被标识区域内的事件的无效实例的数量。\n[0116] 然后,对于每个包含所有有效训练实例中的事件的区域,可选地,可以扩展该区域的定义以包括额外的特征维度403。该区域的用于任何额外维度的边界被选择以使其包括该有效实例的值的完全范围。接着,不包括落在所有这样建立的边界内的特征值的无效实例被排除,并且由此减少了该区域中包括的无效实例的数量。如果有的话,所述额外维度被选择以最小化对于给定维度数量所包括的无效实例的数量。这就意味着用于不同区域的特征维度是那些辨别性能最好的维度,并且可以随着区域不同而改变。\n[0117] 然后,选择该列表中包含来自最少无效训练实例的事件的区域作为一个检测器级联阶段(stage)405。在本发明的一些实施例中,预先确定最大数量的检测器阶段。然后,从进一步的考虑中除去不具有在该选择区域中的事件的无效实例406。\n[0118] 接着,该流程查询还剩余多少无效实例407。如果没有无效实例剩余,则已经生成了对于该训练实例完美执行的检测器级联;该流程400输出该检测器408并停止。\n[0119] 如果无效实例不比前一次迭代更少,那么可以不进行任何改进。在这种情况下,该流程400去除刚刚添加的阶段,取消该不完美的检测器409,并停止。\n[0120] 相反地,如果无效实例比前一次迭代更少,那么该流程查询是否已经添加了最大数量的检测器阶段410。如果已经向该级联中添加了最大数量的检测器阶段,则该流程400输出不完美的检测器411并停止。\n[0121] 如果还剩余无效实例并且还没达到最大数量的检测器阶段,那么该流程400重复并继续,以通过回到步骤402添加额外的阶段来构建该检测器级联。\n[0122] 在该检测器级联生成后,根据以下方法使用它们。首先,检测事件并像训练过程期间那样指定一个共同参照。接着,从该级联的第一阶段开始,评估该列表中的事件以确定是否有事件在该区域内。如果发现有事件在该区域内,则只要发现有至少一个事件在该阶段所使用的区域内,就通过随后的阶段来评估该列表中的事件。\n[0123] 然后,如果该对象具有位于该级联的所有阶段的区域内的事件,则将该对象检测为该类型的一员。最后,如果该对象不具有在任一阶段中的事件,则通过该阶段将它从该类型成员中排除,并且不再执行进一步的处理。\n[0124] 在这些例子中,使用了轴对齐的(超)矩形区域。在本发明的其他一些实施例中,使用了其他的边界结构,例如(超)球体或(超)椭圆形,或者在不同区域或不同维度上混合的边界形状。另外,也可以使用不是轴对齐的(超)矩形区域。这种观测应用到所有弱检测器参照中。\n[0125] 图5-6C示出了根据本发明一些实施例的训练实例事件投影在时间特征值平面上的各个例子。图5示出了包含来自所有有效实例的事件的区域的例子。图6A示出了包含来自所有有效实例的事件的区域的另一例子。图6B示出了包含来自所有有效实例的事件的不对齐区域。图6C示出了包含来自所有有效实例的事件的非矩形区域的例子。\n[0126] 通过增大几何边缘来改善泛化性(generalization)\n[0127] 该用于标识时间轨迹平面中的区域的方法导致边界紧密配合在该区域中所包含的有效训练实例事件附近。当用作检测器时,这种紧密配合的边界将排除其值仅与该区域外边界处的训练实例事件略微不同的情形。如果尽可能地扩张该边界而不包括额外的无效实例事件,则该检测器将能够检测其值类似于该区域中的任意有效训练实例的值范围但超出该范围的情形。然而,这些最宽松的边界会导致错误检测到其值仅与限制该边界的无效实例事件的值略微不同的情形。\n[0128] 通过调整该区域中的每个边界可以改善泛化性,以最大化所检测的有效实例事件与所排除的无效实例事件之间的几何边缘。该最大几何边缘边界是在紧密的最小边界与宽松的最大边界之间的半途上。最大化几何边缘使得可以获得泛化到训练实例中看不到的情形的最佳可能性。图7示出了在区域的一个投影中该最大几何边界与最紧密和最宽松边界之间的关系。\n[0129] 使用可靠的一般种类序列来抑制感知\n[0130] 典型的自动语音识别系统的工作过程是,识别细节例如音素或子音素类型,以及使用这些细节来确定更高层级的模式例如单词。这些低层级细节不是被确定地辨别,而是根据给定的特征值观测向量对每个类型进行概率估计。隐马尔可夫模型(HMM)使用该类型概率估计以及转移概率来计算目标语音的最可能序列。虽然该“根据细节构建”的方法是常用的和相对有效的,但是它不能获得能够与人类感知匹敌的自动语音识别系统。这种方法的一个缺点是该细节分类(detailed classifications)不是非常可靠并且必须通过应用更高层级的语境来弥补。并且,细节分类是与语境高度相关的,但是在确定语音类型的身份时语境是未知的。此外,语境可能被不准确地表示或以低置信度表示。而且,准确统计很难估计语境中很少出现的细节。在该模型统计分布中没表示出来的声学条件或者语音风格的变化会导致该统计估计变得很不准确。最后,替代(alternate)方案的巨大搜索空间在计算上是很难实现的。典型地,通过随机方式例如仅保留最可能的“n”个来减少该搜索。本发明的目的是解决该常用方法中固有的问题和局限性。\n[0131] 一般地,宽泛种类的分类比细节种类的分类能够更可靠地执行。例如,辨别鱼和鸟比确定鸟或鱼的特定种类能够更可靠地完成。类似地,在语音识别中,宽泛归类可以比细节归类更准确地执行。\n[0132] 此外,人类感知似乎主要进行宽泛归类,并且仅在具有关注理由时才考虑具体细节。在流畅的连续语音中,很少会按照词典里说的那样来产生单词,但是这很少会导致人类听众产生问题,只要存在支持感知的足够证据。事实上,人类听众可以容忍替代和省略,只要该语音的特征方面属于预期的可靠宽泛种类并且通常具有预期的语音时间。\n[0133] 例如,考虑这个问答:“Why you cryin?”,“See hit me!”。该问题省略了单词“are”并且用音节“in”替代了“ing”。这些改变都没有对人类感知造成很大影响。类似地,该回答更可能被感知为“She hit me!”,即使所需的“sh”发音已经变为相似的发音“s”。这些例子中的细节替代和省略对感知几乎没有影响,也许都不会被人注意到。宽泛音节种类序列的模式似乎足以标记感知单元,这些感知单元在许多情况下产生明确的感知而不需要对细节类型进行特定标识。\n[0134] 本发明是基于以下观察:\n[0135] ●在很大程度上,宽泛语音种类的序列模式会限制可能的感知选项\n(alternatives)。该感知选项构成感知聚类。\n[0136] ●宽泛语音种类序列本身可以用于直接访问该感知选项的列表。\n[0137] ●仅在必要时应用进一步的计算工作以消除感知聚类内的剩余选项之间的歧义。\n[0138] ●由于在训练时间获知了聚类中的各个选项,所以对于每个感知聚类,可以优化该消除歧义过程以获得最大可靠性或最小计算量。因此,可以应用在任何环境下的最可靠区分。这就意味着可以应用来自各个源的信息,包括单词统计、韵律、语法等。\n[0139] ●当消除感知选项之间的歧义时,获知各个选项的语音和单词语境,从而将区别特征的计算限制为那些相关的和最可靠的。而且,可以使用语境特定的检测器和分类器以获得更高的可靠性。\n[0140] 根据这些实施例,仅当宽泛种类的序列模式不能完全消除该感知的歧义时,才需要求助于细节。即使这样,也可能优选使用那些已知比其他具体辨别更可靠的具体辨别。\n例如,考虑被标记为两个可能感知的宽泛音节种类的序列模式,该两个可能感知可以通过两个位置处的不同音素来彼此区分。如果已知该音素对中的一个比另一个得到更可靠的区分,则将基于该更可靠的分类进行辨别。\n[0141] 类似地,语境对于感知是非常重要的。如果在前面给出的例子中的回答是“cuz see hit me!”,那么它也许会被感知为“cause,he hit me!”。片段“see”的细节没有改变,但是感知并不依赖于该片段的细节。\n[0142] 在本发明的一些实施例中,使用一种独特的算法将语音分类为感知聚类,并且通过最优地访问可靠信息来消除选项感知之间的歧义。根据这些实施例,在每个时间步骤(即到达另一个音节模式,或者如果在特定时长内没有语音产生的话,到达空音节),该算法将语音分类为宽泛但可靠的模式的序列,例如宽泛音节种类。然后,使每个宽泛种类与一个种类序号相关联。优选地,相似的种类被分配相似的序号。\n[0143] 接着,该算法通过使用该种类序号作为状态空间中的坐标,将宽泛种类序列映射到感知模式中。状态空间中的每个点与一个感知聚类和一个歧义消除策略相关。在训练期间建立的该歧义消除策略是在访问该感知聚类时执行的一系列步骤。该歧义消除策略的目的是消除选项感知之间的歧义以最优地访问可靠信息。通过评估以不同顺序和不同组合应用的各种歧义消除技术的计算需求和成功率来确定该歧义消除策略。应用该策略的最终结果是将选项感知减少为较小的数量,优选为1。\n[0144] 如果所述选项被减少为唯一的感知,则以该感知为准。在语音-文本转换系统中,这将包括输出与该感知相对应的单词。在语音控制系统中,将执行与该感知相关的动作。\n[0145] 如果所述选项没有被减少为唯一的感知,并且达到了最大可能阈值,则将最可能的感知接受为该感知并且以此来产生动作。如果没有达到最大可能阈值,则保留可能的剩余选项感知,并且与随后的时间步骤相互作用,从而同时有助于在这些时间步骤中消除感知歧义以及通过在这些时间步骤中可用的信息来消除歧义。\n[0146] 自动语音识别引擎\n[0147] 在本发明当前优选的实施例中,提供一种用于执行本发明所有新颖方面的设备。\n在本发明当前优选的实施例中,在实时电视隐藏字幕和单词识别环境中使用该自动语音识别系统。\n[0148] 图8A示出了一种自动语音-文本转换系统800的示意图,其包括基于事件的提取和在宽泛音节分类的音节级上的识别。该自动语音-文本转换系统800使用宽泛音节分类的序列模式标引到感知单元列表中,仅在需要消除歧义时参照音素级细节。在本发明当前优选的实施例中,该自动语音-文本转换系统800选择做出哪个因素分类,或者基于那些分类或方法而选择应用其他消除歧义方法。\n[0149] 该自动语音-文本转换系统800包括声学分析器802。该声学分析器接收输入语音信号801并数字化所述输入信号801。该声学分析器802可选地与韵律分析器803和事件提取器804连接。在本发明的一些实施例中,通过韵律分析器803处理该数字化信号,从而提取说话者的各种语言学特性,包括但不限于节奏、重音、语调或反映以下方面的其他韵律信息:说话者的感情状态,该语句是否陈述句、疑问句或祈使句,反话,讽刺,强调,关注(focus)等。根据这些实施例,将该韵律信息和数字化信号发送到事件提取器804。\n[0150] 事件提取器804包括处理引擎,用于自动标识多个语音信号中包含事件模式的区域并提取所述事件以用于语音识别。在本发明当前优选的实施例中,该事件提取器804使用上述用于事件识别和提取的过程和方法。该事件提取器804与短时事件存储器805连接以存储该提取的语音事件。该短时事件存储器805与多个事件-文本流处理模块连接,以使用该提取的事件来输出所得出的文本流。在本发明当前优选的实施例中,该事件-文本流处理模块包括音节核检测器806、音节归类器807、音节序列感知标引模块808和子音节细节归类模块809。该事件-文本流处理模块输出在其中嵌入了添加的韵律信息811的文本流。\n[0151] 图8A所示的自动语音-文本转换系统800包括用于自动语音识别和对其进行改进的设备的一个例子。本领域普通技术人员在本说明书的基础上将会清楚,可以使用任意数量的系统、结构、硬件部件等来执行这些用于语音识别和对其进行改进的方法和过程。\n[0152] 图8B示出了一个根据本发明一些实施例的自动语音-文本转换系统820的示意图,其包括用于处理输入语音信号821的语音识别引擎824。在本发明当前优选的实施例中,声学分析器822接收该输入语音信号821并数字化所述输入语音信号821。该声学分析器822与韵律分析器823和语音识别引擎824连接。在本发明的一些实施例中,通过韵律分析器823处理该数字化信号,从而提取韵律信息,如上所述。\n[0153] 在本发明当前优选的实施例中,该语音识别引擎824包括用于执行各种语音识别处理步骤的多个处理模块。如图所示,该语音识别处理引擎824包括:事件提取器825,模式标识器826,弱区域排除器827,增强组简化器828,事件序列识别器829,替代征兆检测器\n830,级联检测器组生成器831,语音泛化器832,和感知聚类歧义消除模块833。虽然这里列出了特定的处理模块,但是本领域普通技术人员在本说明书的基础上将会清楚,可以将现在已知或以后发展的任何语音识别工具作为该语音识别引擎824中的处理模块。\n[0154] 在本发明的一些实施例中,该事件提取器825包括基于事件的语音识别模块,用于执行在语音识别引擎824中使用的加权分类器方案。在本发明的一些实施例中,该模式标识器826自动标识多个语音信号中包含事件模式的区域。在本发明的一些实施例中,该弱区域排除器827应用各种技术来排除不可能获得健壮弱检测器的区域。在本发明的一些实施例中,该增强组简化器828降低由自适应增强算法产生的检测器组的复杂性。在本发明的一些实施例中,事件序列识别器829检测事件序列而不是检测单个事件,或者二者都检测。在本发明的一些实施例中,替代征兆检测器830识别当语音信号的特征方面被破坏时的替代语音征兆。在本发明的一些实施例中,级联检测器组生成器831自动生成检测器组。在本发明的一些实施例中,语音泛化器832通过最大化几何边缘来改善泛化,如上所述。在本发明的一些实施例中,感知聚类歧义消除模块833使用感知聚类来消除语音歧义,如上所述。根据本发明的这些实施例,该语音识别引擎824输出语音数据。\n[0155] 在本发明的一些实施例中,将该识别的语音数据存储在一个或多个数据库834中,其中该一个或多个数据库834优选地与网络835连接。在本发明的其他一些实施例中,将该识别的语音数据自动发送到短时事件存储器836中以用于语音-文本转换处理。\n[0156] 在本发明的一些实施例中,该短时事件存储器836与多个事件-文本流处理模块连接以使用该提取的事件来输出所得的文本流。在本发明当前优选的实施例中,该事件-文本流处理模块包括音节核检测器837,音节归类器838,音节序列感知标引模块839,和子音节细节归类模块840。该事件-文本流处理模块输出在其中嵌入了添加有韵律信息\n841的文本流。\n[0157] 在本发明的其他一些实施例中,提供一种从语音信号中提取事件数据并且识别出其中的单词的设备。图8C示出了用于事件识别和单词识别的系统850,其包括基于事件的提取和对特定单词的识别。该自动语音-文本转换系统850包括用于接收输入语音信号\n851的声学分析器852。该声学分析器852可选地与韵律分析器853和事件提取器854连接。该事件提取器854包括用于自动标识多个语音信号中包含事件模式的区域并提取所述事件用于单词识别的处理引擎。该事件提取器854与短时事件存储器855连接以存储该提取的语音事件。该短时事件存储器855与多个单词识别处理引擎连接。在本发明的一些实施例中,该单词识别处理引擎包括音节核检测器856和单词检测器857。该单词识别处理模块在识别出一个单词时激活一个或多个动作。\n[0158] 第二处理模块862包括脉冲神经网络分类器。用于语音感知的信息不均匀地分布在频率、振幅和时间上。事件模式对于语音识别来说是非常重要的。该脉冲神经网络允许对脉冲时间模式中的语音信息进行编码,而模糊存储结构使得能够容忍时间可变性。第三处理模块863包括一个或多个串连的语音识别引擎,如下所述。\n[0159] 替代性语音-文本转换系统860也包括用于分析和数字化输入语音信号867的声学分析器866。通过三个处理模块861、862或863中的一个或多个处理该数字化语音信号,并将其结果送入判断模块868,该判断模块868选择最佳识别结果并输出文本输出869。\n[0160] 本发明的一些实施例包括在感知重要的位置处切分语音信号。这就提供了一种不仅提取感知相关定时、而且还可以使该信号的分析与语音事件同步的方式,从而避免了不同步固定帧分析的所有问题,如上所述。\n[0161] 该方法首先使用低复杂度滤波器执行预切分滤波,该低复杂度滤波器基于人类感知的特定方面和他们希望检测的语音现象。这些滤波器检测表示语音起始、闭塞、爆破、声门脉冲和其他重要语音信号事件的感知模式的位置。\n[0162] 该预切分事件滤波定义了用于同步某些特征计算的间隔。已被同步提取的特征模式被进一步处理以生成在更长时间标度上的特征,并且检测更高层级感知事件例如音素边界、音节核等。\n[0163] 图9示出了根据本发明一些实施例切分语音信号的例子。图9的语音信号包含话语“Once”。该信号以观看波形时能清楚看到的方式在该话语的过程中多次改变特征。在该图形底部用短垂直标记表示的切分对应于在该单词的“浊音”部分期间的声门脉冲事件。\n[0164] 长垂直线对应于各种类型的语音边界事件。为了参考,片段标签被放置在该图形上表示该切分的语音学标记。在音素之间的过渡处的信号条件随着过渡类型而变化。在一些边界处,总能量陡峭变化,而对于其他位置,谱变化与事件相关。总之,这些各种事件能够使得特征提取与语音事件同步执行,并且提供与感知相关的切分。\n[0165] 在本发明的一些实施例中,信号切分是基于语音信号中存在的感知差别。通常,用于语音感知的信息不均匀地分布在时间上。人类感知对激励(stimuli)变化敏感。在时间信号例如语音中,具有重要变化(即事件)的时间位置用于该信号的感知组织。事件的相对定时和它们附近的激励特性对大部分感知信息进行编码。一般地,振幅感知是非线性的。\n例如,已知对于声音强度的感知是对数的,并且通常以分贝来量度。可以证明,对于宽范围的感知,激励的勉强能注意到的区别(just-noticeable-difference)与该激励的原始水平相关。然而,这并不保持在极值(extremes),并且在低端没有感知直到该激励水平到达神经激励的最低水平。在高端,一旦神经元开始饱和,就不会感知到激励的进一步增加。在可操作范围内,对于许多类型的激励,感知反应所需的变化可以近似表示为韦伯定律:K=ΔI/I0;其中I0是原始激励水平,ΔI是激励水平的变化,K是定义勉强能注意到的区别的阈值的经验确定常数。\n[0166] 韦伯定律公式的右侧可以被识别为对比度。在本发明中,当相关特性的变化超出感知阈值时就确定为事件(即检测器启动)。在本发明中,使用与韦伯定律相关的感知对比度计算来计算该感知变化。\n[0167] 图10示出了根据本发明一些实施例用于计算感知变化的感知对比度公式。在这个公式中,右侧的比值的分母与标准韦伯定律公式在两方面不同:它包括被对比的值的和,并且包括额外的因子ε。该因子ε将激发作用抑制在非常低的水平以便更好地模仿对于非常低激励的感知反应。它还通过避免了在没有激励时被零除而使得该公式在数值上是稳定的。\n[0168] 包含对比值的和还拉平了在非常低和非常高水平上的感知对比反应。对于每个测量的感知特性(例如能量或频率),通过经验确定ε和感知阈值的适当值。在本发明的一些实施例中,生成了多个不同种类的感知事件检测器,其中每个都基于在一些特定事件标度上测量的一些特定的信号特性,并且具有其自己的特定的ε和感知阈值。\n[0169] 本发明的事件检测器以各种标度对该信号的各个方面进行操作。首先,通过利用低复杂度滤波器处理能量值来执行预切分,其检测爆破、闭塞和声门脉冲的时间位置。然后相对于该预切分事件执行特征提取。将额外的滤波器和检测器应用到该同步检测的特征上以提取更高层级的特征和事件。\n[0170] 额外特征提取和处理技术\n[0171] 分段圆形队列存储器\n[0172] 事件检测器的多个部件涉及比较所计算的特征值的和,这是使用按照相对于彼此的特定时间关系对齐的各种长度的分析窗来计算的。为了最小化事件检测器的计算负荷,使用分段圆形队列存储器来保持这些和。圆形队列是先进先出(FIFO)存储结构,其中新信息被写入到该存储器中最旧信息的索引I0处。在将该新信息写入到存储器中后,索引I0被递增并对该存储器的长度求模数(即当该索引I0到达存储器末端时又绕回到零)。根据如下所述的过程可以保持该存储器中的值的实时和(running sums)。\n[0173] 首先,将该圆形队列存储器位置、实时和以及索引I0初始化为零。接着,在每个时间步骤:从该实时和中减去所索引的值,将新值增加到该实时和中,将该新值写入到圆形队列中,然后将该索引I0递增并对该存储器的长度求模数。\n[0174] 图11A-11C中示出了圆形队列的操作及其在高效计算实时和上的使用。图11A示出了根据本发明一些实施例的圆形队列存储器。在图11A中显示了一个5元素圆形队列存储器,在时间“t”要存储一个新值“7”。该新值将覆盖该存储器中最旧的值,在所示示例中为值“9”。在存储该新值之前,该示例存储器中的值的和是25。因为该新值覆盖了最旧的值,所以可以通过减去最旧值和加上新值来保持实时和。如图可以看到的,以这种方式保持实时和的计算复杂性与该存储器的长度无关。不论存储器长度多长,只需要一次减法和一次加法。\n[0175] 图11B和图11C示出了根据本发明一些实施例的更新的圆形队列存储器。更特别地,图11B和图11C示出了通过接下来的两个时间步骤继续的更新过程。为了在该存储器的各个子分段上保持值的多个实时和,通过使用额外的索引来对该圆形队列分段,其中每个索引与索引I0都具有固定的偏差。通过仅仅减去将要从该子分段中移出的值、并加上将要成为该子分段一部分的值,来保持每个子分段的实时和。\n[0176] 图12示出了根据本发明一些实施例用于保持两个实时和的分段圆形队列。该分段圆形队列被设置成帮助保持两个实时和,一个是为该圆形队列中的最旧的一半值(即子分段A)计算的,另一个是为该圆形队列中最新的一半值(即子分段B)计算的。这些和分别被称为∑A和∑B。现在,在与索引I0偏离等于该存储器长度一半的位置处具有第二索引I1。在每个时间步骤,从∑A中减去由I0所索引的值(即整个存储器中最旧的值),并将由I1索引的值加到∑A上,同时从∑B中减去由I1索引的值并将要写入到存储器中的新值加到∑B上。该新值被写入到索引I0的位置,然后对该索引I0和I1递增并对该存储器的长度求模数。在刚才给出的例子中,该存储器的子分段是相同尺寸的,形成不相交的集合,并且一起覆盖了整个存储器。所有这些条件并不是本方法所必要的。\n[0177] 图13示出了根据本发明一些实施例的分段圆形队列。在图13中,子分段“A”被设置成使其完全落在子分段“B”中。根据保持该和的目的来确定该存储器的整体大小以及每个子分段的大小和子分段的时间排列。\n[0178] 在本发明的一些实施例中,使用该圆形队列以检测突变位置。多个重要的语音事件例如起始、闭塞、阻塞爆破等都与该信号的一些特性的级别的陡峭准单调变化相关。通常如图13所设置的分段圆形队列可用于检测陡峭的准单调变化。通过适当设置子分段“A”和“B”的长度,可以在每个时间步骤计算子分段“A”和“B”的实时和之间的感知差别。该感知差别达到最大值及其幅度超过其感知阈值的时间就成为候选的切分点。可以应用进一步的合格条件以便通过加强所检测事件之间的最小时间分隔来更逼真地模仿人类感知特性。在这个阶段,已经可以开始基于在事件处的变化方向对这些事件进行粗分类。例如,从按照在过渡期间能量变化方向的起始和爆破来区分由于闭塞引起的事件。\n[0179] 在本发明的其他一些实施例中,使用该圆形队列来检测语音信号中的冲击(impulses)和间隙(gaps)。一些重要的语音事件与以下时间位置相关:该信号的一些特性在非常短时间内突然变化并随后恢复到与其变化之前相似的水平。如果该短暂变化是变化到更高的值,该变化就被称为“冲击”。如果该短暂变化是变化到更低的值,该变化就被称为“间隙”。可以使用通常如图5设置的分段圆形队列来检测冲击和/或间隙。通过适当设置子分段“A”和“B”的长度,当子分段“A”中的平均值比子分段“B”中的平均值高(低)过一个感知自适应阈值时,定位冲击(间隙)。如前所述,根据经验确定该阈值函数。根据人类感知的本质和要检测的信号特征方面的时间特性,来确定该子分段“A”和“B”的长度。\n[0180] 声门脉冲检测\n[0181] 示出了使用这种方法的一个重要特定情形是检测声门脉冲事件。通过以下过程来定位声门脉冲事件。首先,在第一共振峰的范围内对该信号进行带通滤波。接着,根据该带通滤波器的输出计算Teager能量。该Teager能量计算为:Teager(t)=x(t)*x(t)-x(t-1)*x(t+1),其中x(t)是在时间t处的输入值。\n[0182] 作为振幅和频率的函数,该Teager能量强调了声门脉冲的位置,其与能量和高频分量的局部最大值相关。最后,使用通常如图13所设置的冲击检测器来切分该信号。该检测器基于该Teager能量的绝对值的实时和。在该优选实施例中,子分段“A”和“B”的长度分别被设置为2ms和10ms。只要子分段“A”中的Teager能量均值大于该感知阈值K乘以子分段“B”中的Teager能量均值,该检测器就处于高状态。K值被选择为1.3。已经发现子分段“A”和“B”的长度以及乘数K的值对于检测声门脉冲位置有用。在本发明的范围内,也可以使用与这里所述值不同的值。\n[0183] 上述声门脉冲检测器对于每个声门脉冲生成了两个事件位置,一个在该卖场的上升边缘,一个在该脉冲的下降边缘。该基频周期被定义为两个连续上升边缘事件之间的时间期间。通过该上升边缘与随后的下降边缘之间的时间估计该脉冲的时长。该脉冲时长与总基频周期的比被称为“开商(open quotient)”,这是一个对一些语音处理应用有用的浊音语音的特征。而且,在该基频周期的打开部分期间,声门下空腔(sub-glottal cavities)与口腔声学连接,在该部分期间形成了与闭合部分的模式相比有一定不同的共振峰模式。\n可以通过设置与这些事件相关的特征提取来有利地利用这一事实。\n[0184] 图14示出了根据本发明一些实施例的声门脉冲检测器对于一小段浊音语音的输出的示意图。在图14中,该声门脉冲检测器输出将信号分为“高”和“低”片段。该高片段表示相关特征(在这一例子中为Teager能量)在感知上超过标准(norm)的时间。这种设置形成了关于该脉冲或间隙的时长的片段。对于一些应用,优选的是可标记脉冲或间隙而不是片段。在这种情况下,可以通过多个可选方法中的一个来确定特定事件时间的选择,这些方法包括但不限于:\n[0185] ●选择上升(下降)和下降(上升)边缘之间的中点;\n[0186] ●选择片段的上升边缘;\n[0187] ●选择片段的下降边缘;\n[0188] ●选择片段内的最大(最小)特征值;和\n[0189] ●选择片段内的最大感知对比度的点。\n[0190] 如上所述的声门脉冲检测基于的是检测某个信号特性(例如Teager能量)在一个中心设置的窗口内的均值何时显著偏离在更长时间周期上平均的同一特性。可以使用通常如图13设置的分段圆形队列,通过标识所选择语音特性(例如能量或共振峰频率)在感知上偏离其更长时期标准的区域,来切分任何调制信号。因为保持由检测器使用的实时和所需的计算量与该子分段的长度无关,所以可以使用它们来切分较大标度的调制以及较短的冲击。\n[0191] 音节核检测\n[0192] 为了说明这一点,使用通常如图13设置的分段圆形队列来构建音节核检测器,以保持与声门脉冲检测器一样准确计算的Teager能量的实时和,除了子分段“A”的长度被设为60ms,子分段“B”的长度被设为100ms。\n[0193] 图15示出了根据本发明一些实施例的波形输出的示意图。图15示出了关于两次说出的单词“Once”的波形和检测器输出,第一次是正常的,第二次是轻声说的。如图可见,该检测器通常将音节的中心部分归为同类。\n[0194] 本发明的一些实施例包括使用共振峰提取来识别语音模式的方法。当语音产生时,发音器官(即舌、下颌、嘴唇)的结构形成了在频谱上的共振和反共振的动态模式,称为共振峰。在浊音语音期间,通过散播的“空气噪声”和高度组织的谐振结构两者来产生声音。该散播和谐振成分都有助于语音理解,并且二者都可变地依赖于不同的噪声条件。该散播的“空气噪声”与共振峰相互作用并且被这些共振峰限定形状,将它们显示为相对平滑的。该高度分解的谐波在频谱中形成了相对尖锐的峰值,并且如果没有被适当处理,将会导致很难准确地定位相邻的共振峰。该谐波系列提供了一种即使当该基频周期频率自身从该信号中丢失时也能确定基频的极好方式。实验证明,该振幅调制的谐波可用于再现“忽略”噪声的可理解的语音。在清音语音期间,可感知的变化在时间上将该信号分割为准同质(quasi-homogenous)片段。\n[0195] 共振法提取\n[0196] 在本发明的一些实施例中,执行了一种共振峰提取过程,如图16所示。图16示出了根据本发明一些实施例的用于进行共振峰提取的工作流程1600。\n[0197] 当利用等于该片段长度的窗长度对该片段的采样进行哈明窗处理160时,该流程\n1600开始,其中该片段对应于浊音语音期间的一个基频周期。然后通过一个由宽带通滤波器构成的滤波器组处理该加窗后的采样。在一些实施例中,该带通滤波器具有400Hz的带宽,并且被分布在50Hz的中心上,覆盖了从450Hz到4000Hz的范围。接着,该流程使用DESA-1技术计算每个滤波器的瞬时振幅和频率1603。基于它们的数值质量,在步骤1604将该计算的值判断为“有效”或“无效”。接着,对“有效”估计进行计数并将其存储在临时缓冲器中。\n[0198] 然后,对各个柱表示频率范围的柱状图1606进行初始化,其中对于每个有效估计,使该柱状图中表示该估计瞬时频率的柱递增所对应的对数压缩的估计瞬时振幅。接着,将该平滑柱状图的峰值选择为共振峰候选1607,将共振峰频率、带宽(sigmas)和振幅保存为特征1608,并且通过线性拟合根据该共振峰轨迹计算delta特征1609。最后,在该共振峰模式中的可感知变化的位置中,生成事件1610。\n[0199] 12倍频滤波器组处理\n[0200] 在本发明的其他一些实施例中,对该切分的信号执行12倍频滤波器组处理的过程,其中在低频使用窄通带、在高频使用较宽通带以模仿在人类听觉中发现的频率分辨率趋势。图17示出了根据本发明一些实施例执行共振峰提取的工作流程1700。\n[0201] 该流程1700开始于利用等于该片段长度的窗长度对与该信号同步的片段的采样进行哈明窗处理1701,其中该片段对应于一个基频周期。接着,通过12倍频滤波器组1702处理该加窗的采样1702,并且使用DESA-1技术计算每个滤波器的瞬时振幅和频率1703。基于它们的数值性质,在步骤1704将该计算的值判断为“有效”或“无效”,其中对“有效”估计进行计数并将其存储在用于该间隔的临时缓冲器中1705中。\n[0202] 然后,构建柱状图1706,其各个柱对应于该12倍频滤波器组中每个滤波器的中心频率,其中对于每个有效估计,使该柱状图中其范围包括该估计瞬时频率的柱递增所对应的对数压缩的估计瞬时振幅。接着,基于耳朵在不同频率的灵敏度使该柱状图权值乘以一个加权函数1707。在计算该柱状图后,在谐波组合中对该柱状图中的柱能量模式求和,以检测具有最强能量的最强谐波序列1708,其中使用该最强谐波序列的基频作为基频的估计。\n如果该应用需要更准确的估计,则将窄带通滤波器的中心设置在该估计的谐波频率上,并重新计算1709。该过程很快收敛到高度精确的估计。最后,计算谐波能量与总能量的比值作为合声(voicing)的量度1710,其中将该谐波的振幅比模式保存为特征,其中在自动语音识别中使用该比值。\n[0203] 基频周期的使用\n[0204] 在本发明的一些实施例中,通过从基频周期对基频周期的相对振幅,可以确定谐波轨迹的起始和结束。该谐波轨迹的振幅中的陡峭变化与该谐波和共振峰的相互作用相关,并且该陡峭变化表示该相互作用的变化,其可以是由于该基频变化或共振峰变化所导致的。这种变换表示过渡位置。使用前述的滤波器方法可以响应于这些变化而产生事件。\n要注意的是,当这些事件发生时,它们将与声门脉冲时间同步。\n[0205] 声道归一化和软音素片段识别\n[0206] 在本发明的一些实施例中,应用一种声道归一化和软音素片段识别的过程以弥补使用共振峰模式作为特征所固有的复杂性。由说话者产生的共振峰模式同时地对与正在产生的语音和说话者的声道长度有关的信息进行编码。这就导致使用共振峰模式作为特征变得复杂。\n[0207] 在Watanabe等人撰写的Reliable methods for estimating relative vocal tract lengths from formant trajectories of common words,(IEEE transactions on audio,speech,and language processing,2006,vol.14,pp.1193-1204)中已经观察到,产生同一语音的两个说话者的共振峰具有与他们的声道长度成反比的关系:LA/LB=FnB/FnA。\n[0208] 当发出不同的语音时,说话者的声道长度通过发音器官的动态重组而连续改变。\n对于一个给定的说话者,当产生每个声音时,该共振峰将上下移动,因为它们在改变声道长度。将Watanabe的公式应用到发出某个语音的说话者“A”的共振峰模式和发出相同声音的说话者“B”的共振峰模式上,对于每个测量的共振峰,提供了对于他们的相对声道长度的一个估计。本发明的一些方面基于以下观察。首先,如果说话者“A”和说话者“B”正在发出相同的声音,那么基于各个测量的共振峰的每个的相对声道估计将近似于真实值,并且因而将彼此相似。接着,如果说话者“A”和说话者“B”在发出不同的声音,那么基于各个测量的共振峰的每个的相对声道的估计将偏离。此外,如果从某个语音开始的过渡包括在说话者“A”说话时拉长(缩短)声道长度,那么它也将涉及拉长(缩短)说话者“B”的声道长度,只是根据他们的生理不同而拉长(缩短)不同的量。\n[0209] 在一些实施例中,对参照说话者说出的每个语音的共振峰值进行记录。该参照说话者的共振峰测量可以基于一个或多个说话者,优选是作为许多说话者的测量结果的平均值。在识别时间,如前所述地处理每个片段以产生共振峰值。每个语音(即音素或部分音素)随后被假定为被说出的那个,并且使用该当前片段的共振峰值来计算当前说话者相对于该参照说话者的相对声道长度的估计。为每个声音记录该估计的一致性。基于该一致性的列表,可以建立每个语音的相对似然度。当该语音轨迹接近每个标准共振峰模式的目标结构时,该估计的一致性将增加,并且在这种目标时间,对于所感知的语音将倾向于是最大的。可用于这种感知的置信度取决于该语音和噪声条件。当以高置信度确定语音时,它们就变为该信号中的参照点,这对于约束在具有更小置信度的区域中的可能模式是有用的。\n[0210] 串连并行自动语音识别引擎\n[0211] 本发明的一些实施例包括以时间交叠激活模式使用多个串连并行自动语音识别(ASR)引擎来减少等待时间和提高准确率。每个ASR引擎可以是相似或不相似的设计和起源,但是都必须能够在最小切分时间帧内的该片段的中心部分中的目标语言中产生可接受的结果。通过对在每个片段中心部分期间产生的单词比在开始和结束时的单词更高地加权,以及通过最佳拟合来同步该片段来分析该串连处理器的结果,并且选择具有更高权值的单词用于输出。\n[0212] 这些实施例包括在交叠音频语音片段上使用多个ASR引擎来减少等待时间和提高准确率。该串连并行方法在减少等待时间的同时提高了准确率。\n[0213] 例如,如果一个ASR随意地在x秒切分了一个到来的语音信号,则该输出将会在x/2位置处是最准确的,而在该片段开始和结束时是最不准确的,因为在该中心位置发现了向前和向后方向的最高语境。根据这种观测行为,我们就应当能够使用这种信息作为杠杆,从而简单地以批模式运行一个ASR引擎的n个实例,将该到来的信号切分为以x/n秒交叠的x秒激发(bursts),并且在每个引擎之间交替这些片段的路由。如果n=2,当引擎B正在工作以识别其片段时,对引擎A的输出与之前输出的单词流一起分析以在统计上提高、校正和输出来自引擎A的单词。然后,在该n秒输入边界,该输出分析器和处理任务在该引擎之间切换工作。\n[0214] 在观察在串连配置中有用的典型ASR引擎时,我们看到当使用一个三千单词的WSJ英语模型时,x显示为在设定为3秒左右时工作最好。这就使得有可能使用这种被设计和优化用于对较长话语进行处理的引擎,将其修改适用于需要较少等待时间的场合。\n[0215] 换句话说,如果x=3,在0.0-3.0秒处的第一语音片段将被提供给引擎A。然后从1.5-4.5秒的片段将被提供给引擎B,等等。\n[0216] 图18示出了根据本发明一些实施例的在时间上交叠且对话语序列进行操作的两个串连处理引擎。如图18所示,从引擎A输出单词“is falling from the sky”,从引擎B输出“done the sky today at”。通过应用对每个片段末端的每个单词的权值进行减少的统计方法,其考虑了对于那些单词的可靠性因素,我们可以以3秒地固定等待时间获得明显连续的单词流例如“is falling from the sky today at”。\n[0217] 该加权分析和输出引擎可以包括以下种类的一个或多个算法以及其他用于判断将哪些单词添加到最终输出流中的其他算法。例如,一种算法可以包括简单地对片段的中心单词赋予比该片段边缘处的单词更高的权值,从原始语音信号获得的声学和韵律线索,对将要输出的单词进行统计分析以提高更可能输出的权值,用于选择该更可能输出的语法规则,或者其他机器学习和统计方法。\n[0218] 自动加标点器\n[0219] 本发明的一些实施例涉及向无标点文本中自动插入标点符号。自动加标点器是向无标点文本中自动插入标点符号(句号,逗号,问号,感叹号,撇号,引号,括号,省略号,分号,冒号)的系统。\n[0220] 图19示出了根据本发明一些实施例的一种包括自动加标点器的语音-文本转换系统1900。在本发明的一些实施例中,无标点文本可以产生为文本1901,或者是口语语言\n1902,其随后通过自动语音识别系统1903转写为文本。\n[0221] 该转写的文本或来自1901的自然文本被发送到自动加标点器1905。该自动加标点器1905生成由于正确设置了标点符号而更容易阅读和更少歧义的文本。\n[0222] 在本发明的一些实施例中,该自动加标点器1905与包含训练数据的数据库1904连接。该自动加标点器使用根据大量正确加标点的训练文本训练过的一个或多个贝叶斯算法。该训练数据中的标点模式被分析以生成一组描述该文本中的标点模式的规则。\n[0223] 一旦已根据足够数量的文本训练过该加标点器后,它的规则就能够被应用到新文本上以预测应当在哪里插入标点符号。\n[0224] 在本发明的一些实施例中,该自动加标点器1905包括多个处理模块。如图所示,该自动加标点器包括第一统计处理器1906、第二统计处理器1907和第三统计处理器1908。\n[0225] 在一些实施例中,第一统计处理器1906基于统计规则标识应当插入标点的地方。\n执行训练过程以发展这些规则。该训练过程包括分析大量正确加标点文本中的特定单词与标点符号之间的相关性。该组规则是根据这种分析得出的。然后可以将该组规则应用到新的无标点文本上,以预测标点符号的可能位置。该过程的输出是关于应当在哪里插入标点符号的一系列意见。\n[0226] 在一些实施例中,该第二统计处理器1907对于词性(parts-of-speech)与标点符号之间的相关性进行训练。该过程依赖于词性标记器,该词性标记器分析训练数据中的句子结构并且为每个单词分配一个词性标签。词性标签的例子是名词、动词、形容词、介词等。\n[0227] 然后该过程基于其对特定词性如何与标点符号相关的观察结果建立一组规则。然后可以将该组规则应用到新文本上。该过程的输出是关于应当在文本的何处插入标点符号的一系列意见。\n[0228] 在一些实施例中,第三统计处理器1908基于平均句子长度来使用加权。统计加标点器的第三个组件是基于通常构成特定文本中的句子的单词数量。与其他过程类似,它根据大量正确加标点的文本进行训练。基于在以标点限定边界的文本单元中出现的n-gram数量来发展规则。\n[0229] 在本发明的一些实施例中,来自第一统计处理器1906和第二统计处理器1907的结果是两组关于应当在文本何处插入标点符号的一系列意见。然后使用来自第三统计处理器1908的结果作为一种连接中断器(tie-breaker),以解决当判定发生冲突的情形。例如,如果第一统计处理器1906预测在一个文本串的第五个单词后需要句号,而第二统计处理器1907预测在第三个单词后需要句号,则来自第三统计处理器1908的结果将被调用以做出决定,因为不可能两者都正确,因为将会形成两个单词的句子。\n[0230] 在一些实施例中,第三统计处理器1908基于它对这种文档中的典型句子长度的知识,为来自第一统计处理器1906或第二统计处理器1907的结果分配更高的权值。如果该文档类型中的句子典型地为非常短,则第三统计处理器1908可能对第二统计处理器1907的输出分配更大的权值。另一方面,如果该文档类型中的句子通常为5个单词或更长,则它将为第一统计处理器1906生成的意见分配更大的权值。\n[0231] 一旦完成该决定做出步骤,就将该结果传送到决定模块1909,其将做出与来自基于规则的加标点模块1910和基频/暂停模块1911的信息一致的、关于在哪里插入标点的最终决定。\n[0232] 在一些实施例中,基于规则的加标点模块1910使用一组关于语言学结构的规则来判断应当在文本何处插入标点符号。该基于规则的加标点模块1910与词典数据库1916连接。\n[0233] 该基于规则的加标点模块1910可以标识出单词的多个功能类型,包括主格代词、宾格代词、关系代词、情态词、连词、定冠词、日期和特定种类动词。在一些实施例中,该词典数据库1916包括词性信息。\n[0234] 一旦该程序已经标识出功能种类之一的成员,它就继续搜索附近的语境,考察包括该标识项的文本窗以及之前和之后的两个单词。出现在语境窗中的单词的特定种类或词性将指示在该文本串中的一些点需要逗号。该语言学规则用作关于应当在哪里插入逗号的指示列表。例如,当该程序标识出主格代词(I,he,she,we,they),它就检查该语境窗是否出现其他种类。例如,如果主格代词前面是一个副词或分词(预计会具有某些动词分词),则该程序将预测在该标识单词前面的单词后应当是逗号。该基于规则的加标点器可以处理文本流或预先存在的文本文件。该基于规则的加标点器的输出是一系列关于应当在哪里插入逗号的意见。\n[0235] 在一些实施例中,基频/暂停模块1911与其他组件不同,因为它的输入是包含人类语音的音频文件。其他组件对文本操作,虽然该文本可以源于音频数据,这种音频数据随后再转写。该基频/暂停模块1911是基于以下观察结果操作的:在人类语音中,在较短时间段内发生并且与一段静音时间相关的显著基频变化通常表示需要标点。例如,如果该音频文件中的给定点显示在较短时间段(275ms)中出现了基频陡降(30%或更多),这就是说话者到达句子末尾的一种可能标志。\n[0236] 按照这种模式的暂停存在倾向于确定已经识别出标点符号的位置。当已经遇到指示标点的正确条件时,该基频/暂停加标点器追踪音频文件和信号的基频。该基频/暂停加标点器输出关于应当在哪里插入标点符号的意见。\n[0237] 在一些实施例中,决定模块1909接收来自自动加标点器1905、基于规则的加标点器1910和基频/暂停模块1911的输入。基于该文本类型的已知特性,该决定模块1909向这些结果中的每个分配更高或更低的权值以作出关于是否应当在该文本中的给定点插入标点的最终判断。
法律信息
- 2014-10-15
- 2011-12-28
实质审查的生效
IPC(主分类): G10L 15/16
专利申请号: 200980148155.7
申请日: 2009.11.12
- 2011-10-26
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| | 暂无 |
1995-11-07
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |