英语口语机考系统中网络语音识别方法

发明专利无效专利

申请号：
CN201110321538.9
IPC分类号：G10L15/00G10L15/02G10L15/08G10L21/02
申请日期：
2011-10-21
申请人：
东南大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	英语口语机考系统中网络语音识别方法
申请号	CN201110321538.9	申请日期	2011-10-21
法律状态	权利终止	申报国家	中国
公开/公告日	2012-05-02	公开/公告号	CN102436809A
优先权	暂无	优先权号	暂无
主分类号	G10L15/00 ? IPC结构图谱： G 物理 G0 仪器 G10 乐器；声学 G10L 语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码〔4〕 G10L15/00 语音识别（G10L 17/00优先）〔7，2013.01〕	IPC分类号	G10L15/00;G10L15/02;G10L15/08;G10L21/02查看分类表>
申请人	东南大学	申请人地址	江苏省南京市江宁开发区东南大学*** 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	东南大学	当前权利人	东南大学
发明人	刘健刚;李霄翔;储琢佳;张潇丹;董静;赵力;张萍;李鲁
代理机构	南京天翼专利代理有限责任公司	代理人	汤志武

摘要

本发明涉及一种在英语口语机考系统中实现网络语音识别的方案。本方案对传统的谱相减（SS）降噪声技术和倒谱均值规整（CMN）降噪声技术进行改进，同时结合等同于连续状态隐马尔可夫模型（HMM）的概率尺度DP识别方法，提出了一种在英语网考系统中非特定人的网络语音识别方案，并利用其实现了实际环境下网络语音识别装置。本方案采用上述方法，将具有输入幅值谱自适应的SS方法和基于渐进自适应方式MAP算法的CMN方法相结合，大大降低了环境噪声对识别系统的影响。同时，本方案在传统的DP方法基础上，利用概率尺度的DP算法进行识别，使得DSP语音识别装置能够适用于户外不同场合的、非特定人的语音识别，从而使得识别系统范围和识别精度得到了提高。

1.一种英语口语机考系统中网络语音识别方法，其特征在于，包括一些步骤：
1.输入英语口语机考系统中的语音信号a′(t)，t为时间变量；
2.预处理与特征提取
预处理阶段
1)语音信号进行采样：对英语口语机考系统中语音信号进行采样频率fs为8kHz的采样，采样后的信号为s(t)，
，再进行1-0.98Z-1
的预加重处理，1-0.98Z-1的时域形式为1-0.98δ(t-1)，预加重后的语音信号b(t)=s(t)*[
1-0.98δ(t-1)]=s(t)-0.98s(t-1)，其中，δT (t)为冲激函数，n′为整数；
2)用窗长25ms, 窗移10ms的汉明窗对语音信号进行加窗分帧处理：分帧采用交叠分段的方法，前一帧和后一帧的交叠部分称为帧移长度M, 用可移动的有限长度窗口进行加权的方法来实现的，即用窗函数ω′(t)来乘预加重后的语音信号b(t)，从而形成加窗语音信号x(t)，x(t)= b(t)· ω′(t)，本发明采用汉明窗ω′(t)，其窗函数为：
N为窗长，窗长即帧长，窗移即N-M，帧移长度M为15ms，
加窗分帧处理后得到的第i帧语音信号为，则xi(t)满足下式：
xi(t)= ω′(t-l)b(t),0≤t≤N-1
其中，l=0,1(N-M),2(N-M),…,(总帧数-1)(N-M)，M为帧移长度，N为帧长即窗长，
3)语音信号的端点检测：利用语音信号的短时能量进行端点检测
设第i帧语音信号xi(t)的短时能量用Ei表示，则计算公式如下：
设置两个门限，一个较低的门限Tlow，Tlow =min(Ei,i=1,2,…,总帧数)·0.1，数值比较小，对信号的变化比较敏感；一个较高的门限Thigh，Thigh=max(Ei,i=1,2,…,总帧数)·0.1，当Thigh第一次被超过时，断定为区域语音信号的开始，当短时能量降到Tlow以下就代表区域语音信号的结束，
4) 利用语音区间检测时使用的短时能量对输入波形数据进行规整，即进行归一化处理，使得输入语音基本上按等幅进行频率分析，方法为：第i帧语音信号xi(t)的短时能量Ei，归一化后的第i帧语音信号xi(t)的短时能量为
，
5) 降噪处理：
I：采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声：
第i帧语音信号xi(t)含有噪声的傅里叶变换为xi(ω)，
，ω为频率，j为虚数单位，则第i帧语音信号xi(t)的幅值谱为|xi(ω)|，其功
2
率为：|xi(ω)|，除噪后的第i帧语音信号为xinew(ω)，其幅值谱为|xinew(ω)|，
2
，则除噪后的第i帧语音信号的功率为：|xinew(ω)|，推
定的噪声功率为|ni(ω)|2，在整个区域语音以外的当前输入第i帧信号为yi(t)，其帧
2
功率为|yi(ω)|，，对于第i帧语音信号幅值谱的第o元
2 2
素，噪声下的语音功率为|xi(ω)|o，推定的噪声功率是|ni(ω)|o，除噪后的语音功率是
2
|xinew(ω)|o，为了补偿第4)步中由于规整而丢失的能量信息，推定噪声功率估计修正为：
2 2 2
|ni(ω)|o=(1-β)|ni-1(ω)|o+βEi′|yi(ω)|o，0＜β＜1，本发明中取β=0.55，SS权值系数修正为，
，其中0＜θ1,θ2＜1，φ1和φ2是常数
其中，φ1=0.1, φ2=0.3, θ1=0.2, θ2=0.8，Ei为第i帧语音信号的短时能量，Ei′为第i
2
帧语音信号归一化后的短时能量，|yi(ω)|o为在整个区域用语音以外的当前输入信号帧功率，
除噪后语音的功率为：
II：利用基于最大后验概率（MAP）的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声：
设对于第i帧倒谱的第o元素，噪声下的语音倒谱是Co(i)，是采用第I种降噪后的xinew(t)对数幅值谱的第o元素的傅里叶逆变换，即，
|xinew(ω)|o表示第i帧语音信号幅值谱的第o元素，除噪后语音的倒谱是，式中γ是自适应训练系数，γ＞1，Co0是表示先验分布的初始估计值，0＜Co0＜1，k为总帧数，γ=2，Co0=0.95，
6) 经过步骤1）-5）的预处理过程之后的语音信号为xnew′(t)，t为时间变量，其第i帧语音信号为xinew′(t)，
特征参数提取阶段
1) 对预处理后的每一帧语音信号分别求取14维LPC系数：
设第i帧语音信号为xinew′(t)的功率谱为|xinew′(ejω)|2，xinew′(ejω)即信号谱，表示第i帧语音信号xinew′(t)的傅里叶变换，，由
|xinew′(ejω)|2=|H(ejω)|2求出14维LPC系数ap,p=1,2,…,14，
则第i帧语音信号的声道模型系统函数H(z)为：
其冲激响应为h(n″)，表示h(n″)的复倒谱，则有：
将式（3）代入（4）式并将其两边对z-1求导数，有：
n″为正整数，令上式左右两边的常数项和z-1各次幂的系数分别相等，从而可由LPC系数ap求出LPC复倒谱：
从而LPC倒谱系数LPCC：，c(n″)为LPC倒谱系数LPCC，
2) 利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC 系数△LPCMCC作为语音特征参数：
I:根据人的听觉特性，把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换，求出如下所示的LPC美尔倒谱系数LPCMCC：
这里，MCg(d)为LPC美尔倒谱系数LPCMCC，d为迭代次数，g为美尔倒谱阶数，d=g=9， c(n″)为LPC倒谱系数，当d＞9时，MCg(d)=0，并且当抽样频率为8kHz时，ε取0.31，迭代是从高到低，即d从大到0取值，最后求得的美尔倒谱系数放在MC0(0), MC1(0),…, MC9(0)里面，组成一个10维的特征矢量的时间序列，
II: 求取一阶的倒谱线性回归系数△LPCMCC：
r为阶数取1， Pr(X′,N′)表示求取r阶线性回归系数时的加权函数，当r=1时， Pr(X′,N′)= X′，C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数，ΔT为15ms，由LPCMCC，求出10维的一阶的倒谱线性回归系数△LPCMCC，
3) 将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数△LPCMCC作为语音特征参数，组成一个20维的特征参数矢量Vector，
3. 语音识别
I. 语音识别方法采用基于概率尺度DP识别方法
1）用基于概率尺度的动态规划DP算法进行时间规整
以单词作为一个识别单元，利用模板匹配方法进行识别，在训练阶段，将训练数据中每个单词中提取的特征矢量时间序列作为模板存入模板库；在识别阶段，将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出，所述的待识别语音采用基于概率尺度的动态规划DP算法进行时间规整：
待识别语音特征参数共有k帧矢量，设相应的参考模板共有J帧矢量，且k≠J，动态时间规整就是寻找一个时间规整函数，它将测试矢量的时间轴u非线性的映射到模板的时间轴v上，并使该函数满足：
式中，是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢量
B(v)之间的距离测度，D是处于最优时间规整情况下的两矢量的距离，得到的两矢量匹配是累计距离最小的规整函数，接着，用基于概率尺度动态规划DP算法来寻找最优的规整函数：
基于概率尺度的DP方法的递推公式为：
G(u,v)是当前匹配帧(u,v)的概率，PS1,PS2,PS3为带到改点的路径，DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径，组成的折线段对应的函数即为最优规整函数，
a) 条件概率P(Xu|v)的计算
假定在状态v观测到的Xu是符合(μv,Σv)的高斯分布，μv为均值，Σv为方差，Xu为第u帧语音特征参数矢量，则条件概率
，Σv和μv为与Xu同维数的向量，维
数是20，(Xu-μv)t表示向量(Xu-μv)的转置，
为了求出各个时刻的均值和方差，首先选择一个学习样本序列即训练数据序列作为核心样本，然后输入一个同类的学习数据和核心样本进行DP匹配即利用上述概率计算公式依次找出匹配点和带到该匹配点的最优路径寻找最佳路径函数，这时各个时刻的均值和方差通过最佳路径函数找出和核心样本对应时刻的输入帧矢量进行计算和更新，如此重复直到同类的学习数据用完为止，渐进地求出各个时刻的均值和方差；
b) 状态转移概率的计算
上述公式里logPPS1(v),logPPS2(v),logPPS3(v)分别表示Q((u-2,v-1)→(u,v))、Q((u-1,v-1)→(u,v))、Q((u-1,v-2)→(u,v))三个状态转移的转移概率，计算状态转移概率的方法：各个学习数据和核心样本进行DP匹配时，记下各时刻选择的路径情况，学习完毕后，假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v)，则此时的三个状态转移概率可由下式计算得到：
求出最优规整函数后，将待识别的语音特征参数矢量的时间序列的时间轴作为坐标的横轴，非线性的映射到作为坐标纵轴的模板矢量的时间轴上：，
最后，利用模式匹配的方法进行识别：
最优路径函数的起点与终点之间的距离即为待识别语音与模板语音之间的距离，与待识别语音距离最小的模板对应的单词字音即判为识别结果。

英语口语机考系统中网络语音识别方法
技术领域
[0001] 本发明涉及一种网络语音识别技术，特别涉及一种在英语口语机考系统中非特定人的网络语音识别方案。
背景技术
[0002] 我国教育部高等教育司于2007年5月启动基于计算机和网络的大学英语四、六级考试项目，并于2008年12月20日在全国53所高校实施四级网考试点考试。随着我国四、六级网考试点工作的开展将彻底改变长期以来语言考试中主要依靠纸质考试制度的弊端，无论对考生还是大学英语老师都是一个巨大的挑战，是英语教学理念中的一场革命。然而，英语口语机考系统一般是通过网络来提供终端和服务器之间的英语识别和评估服务的，对网络语音提供英语口语机考系统服务一般要求是面对非特定人的，而且由于终端机、传输网路、背景噪声的影响，在很大程度上影响了英语口语机考系统的性能。
[0003] 利用传统的谱相减(SS)降噪声技术法进行降噪处理仍然是当今主要的降低环境
2
噪声的方法。设对于第i帧语音信号幅值谱的第o元素，噪声下的语音功率为|xi(ω)|o，
2
推定的噪声功率是，除噪后的语音功率是|xinew(ω)|o，则传统的谱相减(SS)降噪声技术法如(1)式所示。
[0004]
[0005] 由于传统的谱相减(SS)降噪声技术法考虑噪声为平稳噪声，所以对于整个语音段，噪声功率以及权系数α一般取相同的值。而实际环境下的噪声，例如展览会中的展示隔间内的噪声是非平稳噪声，所以用相同的噪声功率值是不确切的。同样，传统的谱相减(SS)降噪声技术法用相同的权值α，有可能发生减除过度或过少的问题，使得有的区段要么噪声消除不够，要么减除过多产生|xinew(ω)|2o失真。
[0006] 对于由输入和传输电路系统引起的乘法性噪声，利用倒谱均值规整(CMN)降噪声技术方法可以得到比较好的抑制效果。设对于第i帧倒谱的第o元素，噪声下的语音倒谱是Co(i)，除噪后语音的倒谱是则传统的倒谱均值规整(CMN)降噪声技术方法如(2)式所示。
[0007]
[0008] 式中为整个输入语句的倒谱平均值。这种长时倒谱均值规整(CMN)降噪声技术方法存在2个问题，一是由于输入语句中音素的出现频度会改变的大小，直接影响规整的效果。二是必须到终点为止计算完成以后，才能算出影响了实时性。
[0009] 特征提取是模式识别的关键问题，因为特征参数的好坏对于语音识别精度有很大影响。常用的识别参数是LPC倒谱系数(LPCC)。
[0010] 用一片数字信号处理器即DSP实现的语音识别装置，为了节约它的存储和运算成本，一般采用矢量量化(VQ)方法或者概率尺度DP(动态编程)匹配方法进行识别，因为对于小词汇量单词或词组识别系统来讲，VQ和DP方法足以满足识别性能的要求。但是，传统的VQ和DP方法只能适用于特定人的语音识别系统。
发明内容
[0011] 本发明的目的就在于解决现有技术的缺陷，提出了一种英语口语机考系统中网络语音识别方法，本发明利用改进的谱相减(SS)降噪声技术、倒谱均值规整(CMN)降噪声技术和概率尺度的DP算法实现英语口语机考系统实环境下网络语音识别方案。本发明的技术方案是：
[0012] 一种英语口语机考系统中网络语音识别方法，包括以下步骤：
[0013] 1.输入英语口语机考系统中的语音信号a′(t)，t为时间变量；
[0014] 2.预处理与特征提取
[0015] 预处理阶段
[0016] 1)语音信号进行采样：对英语口语机考系统中语音信号进行采样频率fs为8kHz的采样，采样后的信号为s(t)，
[0017] 再进行
1-0.98Z-1的预加重处理，1-0.98Z-1的时域形式为1-0.98δ(t-1)，预加重后的语音信号b(t)＝s(t)*[1-0.98δ(t-1)]＝s(t)-0.98s(t-1)，其中，δT(t)为冲激函数，n′为整数；
[0018] 2)用窗长25ms，窗移10ms的汉明窗对语音信号进行加窗分帧处理：分帧采用交叠分段的方法，前一帧和后一帧的交叠部分称为帧移长度M，用可移动的有限长度窗口进行加权的方法来实现的，即用窗函数ω′(t)来乘预加重后的语音信号b(t)，从而形成加窗语音信号x(t)，x(t)＝b(t)·ω′(t)，本发明采用汉明窗ω′(t)，其窗函数为：
[0019]
[0020] N为窗长，窗长即帧长，窗移即N-M，帧移长度M为15ms，
[0021] 加窗分帧处理后得到的第i帧语音信号为xi(t)，则xi(t)满足下式：
[0022] xi(t)＝ω′(t+l)b(t)，0≤t≤N-1
[0023] 其中，l＝0，1(N-M)，2(N-M)，…，(总帧数-1)(N-M)，M为帧移长度，N为帧长即窗长，
[0024] 3)语音信号的端点检测：利用语音信号的短时能量进行端点检测
[0025] 设第i帧语音信号xi(t)的短时能量用Ei表示，则计算公式如下：
[0026]
[0027] 设置两个门限，一个较低的门限Tlow，Tlow＝min(Ei，i＝1，2，...，总帧数)·0.1，数值比较小，对信号的变化比较敏感；一个较高的门限Thigh，Thigh＝max(Ei，i＝1，2...，总帧数)·0.1，当Thigh第一次被超过时，断定为区域语音信号的开始，当短时能量降到Tlow以下就代表区域语音信号的结束，
[0028] 4)利用语音区间检测时使用的短时能量对输入波形数据进行规整，即进行归一化处理，使得输入语音基本上按等幅进行频率分析，方法为：第i帧语音信号xi(t)的短时能量Ei，归一化后的第i帧语音信号xi(t)的短时能量为
[0029]
[0030] 5)降噪处理：
[0031] I：采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声：第i帧语音信号xi(t)含有噪声的傅里叶变换为xi(ω)，
ω为频率，j为虚数单位，则第i帧语音信号xi(t)的幅值谱为|xi(ω)|，其功
2
率为：|xi(ω)|，除噪后的第i帧语音信号为xinew(t)，其幅值谱为|xinew(ω)|，
2
则除噪后的第i帧语音信号的功率为：|xinew(ω)|，推定
2
的噪声功率为|ni(ω)|，在整个区域语音以外的当前输入第i帧信号为yi(t)，其帧功率为|yi(ω)|2，对于第i帧语音信号幅值谱的第o元素，噪声下的
2 2 2
语音功率为|xi(ω)|o，推定的噪声功率是|ni(ω)|o，除噪后的语音功率是|xinew(ω)|o，
2
为了补偿第4)步中由于规整而丢失的能量信息，推定噪声功率估计修正为：|ni(ω)|o＝
2 2
(1-β)|ni-1(ω)|o+βEi′|yi(ω)|o，0＜β＜1，本发明中取β＝0.55，[0032] SS权值系数修正为
[0033] 其中0＜θ1，θ2＜1，φ1和φ2是
常数其中，φ1＝0.1，φ2＝0.3，θ1＝0.2，θ2＝0.8，Ei为第i帧语音信号的短时能量，
2
Ei′为第i帧语音信号归一化后的短时能量，|yi(ω)|o为在整个区域用语音以外的当前输入信号帧功率，
[0034] 除噪后语音的功率为：
[0035]
[0036] II：利用基于最大后验概率(MAP)的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声：
[0037] 设对于第i帧倒谱的第o元素，噪声下的语音倒谱是Co(i)，是采用第I种降噪后的xinew(t)对数幅值谱的第o元素的傅里叶逆变换，即
|xinew(ω)|o表示第i帧语音信号幅值谱的第o元素，除噪后语音的倒谱是
[0038]
[0039] 式中γ是自适应训练系数，γ＞1，Co0是表示先验分布的初始估计值，0＜Co0＜1，k为总帧数，γ＝2，Co0＝0.95，
[0040] 6)经过上述预处理过程之后的语音信号为xnew′(t)，t为时间变量，其第i帧语音信号为xinew′(t)，
[0041] 特征参数提取阶段
[0042] 1)对预处理后的每一帧语音信号分别求取14维LPC系数：
[0043] 设第i帧语音信号为xinew′(t)的功率谱为|Xinew′(ejω)|2，Xinew′(ejω)即信号谱，表示第i帧语音信号xinew′(t)的傅里叶变换，由|Xinew′(ejω)|2
jω 2
＝|H(e )| 求出14维LPC系数ap，p＝1，2，...，14，
[0044] 则第i帧语音信号的声道模型系统函数H(z)为：
[0045]
[0046] 其冲激响应为h(n″)，表示h(n″)的复倒谱，则有：
[0047]
[0048] 将式(3)代入(4)式并将其两边对z-1求导数，有：
[0049]
[0050] n″为正整数，令上式左右两边的常数项和z-1各次幂的系数分别相等，从而可由LPC系数ap求出LPC复倒谱
[0051]
[0052] 从而LPC倒谱系数LPCC： c(n″)为LPC倒谱系数LPCC，
[0053] 2)利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数：
[0054] I：根据人的听觉特性，把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换，求出如下所示的LPC美尔倒谱系数LPCMCC：
[0055]
[0056] 这里，MCg(d)为LPC美尔倒谱系数LPCMCC，d为迭代次数，g为美尔倒谱阶数，d＝g＝9，c(n″)为LPC倒谱系数，当d＞9时，MCg(d)＝0，并且当抽样频率为8kHz时，ε取0.31，迭代是从高到低，即d从大到0取值，最后求得的美尔倒谱系数放在MC0(0)，MC1(0)，...，MC9(0)里面，组成一个10维的特征矢量的时间序列，
[0057] II：求取一阶的倒谱线性回归系数ΔLPCMCC：
[0058]
[0059] r为阶数取1，Pr(X′，N′)表示求取r阶线性回归系数时的加权函数，当r＝1时，Pr(X′，N′)＝X′，C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数，ΔT为15ms，由LPCMCC，求出10维的一阶的倒谱线性回归系数ΔLPCMCC，
[0060] 3)将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数，组成一个20维的特征参数矢量Vector，
[0061] 3.语音识别
[0062] I.语音识别方法采用基于概率尺度DP识别方法
[0063] 1)用基于概率尺度的动态规划DP算法进行时间规整
[0064] 以单词作为一个识别单元，利用模板匹配方法进行识别，在训练阶段，将训练数据中每个单词中提取的特征矢量时间序列作为模板存入模板库；在识别阶段，将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出，所述的待识别语音采用基于概率尺度的动态规划DP算法进行时间规整：
[0065] 待识别语音特征参数共有k帧矢量，设相应的参考模板共有J帧矢量，且k≠J，动态时间规整就是寻找一个时间规整函数它将测试矢量的时间轴u非线性的映射到模板的时间轴v上，并使该函数满足：
[0066]
[0067] 式中，是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢
量B(v)之间的距离测度，D是处于最优时间规整情况下的两矢量的距离，得到的两矢量匹配是累计距离最小的规整函数，接着，用基于概率尺度动态规划DP算法来寻找最优的规整函数
[0068] 基于概率尺度的DP方法的递推公式为：
[0069]
[0070] G(u，v)是当前匹配帧(u，v)的概率，PS1，PS2，PS3为带到改点的路径，DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径，组成的折线段对应的函数即为最优规整函数
[0071] a)条件概率P(Xu|v)的计算
[0072] 假定在状态v观测到的Xu是符合(μv，∑v)的高斯分布，μv为均值，∑v为方差，Xu为第u帧语音特征参数矢量，则条件概率
[0073] ∑v和μv为与Xu同维数的向
量，维数是20，(Xu-μv)t表示向量(Xu-μv)的转置，
[0074] 为了求出各个时刻的均值和方差，首先选择一个学习样本序列即训练数据序列作为核心样本，然后输入一个同类的学习数据和核心样本进行DP匹配即利用上述概率计算公式依次找出匹配点和带到该匹配点的最优路径寻找最佳路径函数这时各个时刻的均值和方差通过最佳路径函数找出和核心样本对应时刻的输入帧矢量进行计算和更新，如此重复直到同类的学习数据用完为止，渐进地求出各个时刻的均值和方差。
[0075] b)状态转移概率的计算
[0076] 上述公式里logPPS1(v)，logPPS2(v)，logPPS3(v)分别表示Q((u-2，v-1)→(u，v))、Q((u-1，v-1)→(u，v))、Q((u-1，v-2)→(u，v))三个状态转移的转移概率，计算状态转移概率的方法：各个学习数据和核心样本进行DP匹配时，记下各时刻选择的路径情况，学习完毕后，假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v)，则此时的三个状态转移概率可由下式计算得到：
[0077] PPS1(v)＝PS1(v)/{PS1(v)+PS2(v)+PS3(v)}
[0078] PPS2(v)＝PS2(v)/{PS1(v)+PS2(v)+PS3(v)}
[0079] PPS3(v)＝PS3(v)/{PS1(v)+PS2(v)+PS3(v)}
[0080] 求出最优规整函数后，将待识别的语音特征参数矢量的时间序列的时间轴作为坐标的横轴，非线性的映射到作为坐标纵轴的模板矢量的时间轴上：
[0081] 最后，利用模式匹配的方法进行识别：
[0082] 最优路径函数的起点与终点之间的距离即为待识别语音与模板语音之间的距离，与待识别语音距离最小的模板对应的单词字音即判为识别结果。
[0083] 本发明的优点和效果在于：
[0084] 1.对传统的谱相减(SS)方法进行改善，采用具有输入幅值谱自适应的SS方法，同时将其与基于渐进自适应方式最大后验概率(MAP)算法的倒谱均值规整(CMN)方法相结合，大大降低了噪声对系统的影响。
[0085] 2.在传统的DP方法基础上，利用概率尺度的DP算法进行识别，使得DSP语音识别装置既能适用于特定人的语音识别系统，更能适用于户外不同场合的、非特定人的语音识别，从而使得识别系统范围大大提高。
[0086] 3.本发明利用改进的SS、CMN降噪声技术和概率尺度的DP算法实现英语口语机考系统实环境下网络语音识别方案，其语音识别精度较高。
附图说明
[0087] 图1——非对称型DP路径。
[0088] 图2——实施步骤流程图。
具体实施方式
[0089] 下面结合附图，对本发明所述的技术方案作进一步的阐述。
[0090] 图1是非对称型DP路径。
[0091] 图2是实施步骤流程图。
[0092] 1.输入英语口语机考系统中的语音信号a′(t)，t为时间变量；
[0093] 2.预处理与特征提取
[0094] 预处理阶段
[0095] 1) 语音信号进行采样：对英语口语机考系统中语音信号进行采样频率 fs 为 8kHz 的采样，采样后的信号为 s(t)，-1
再进行 1-0.98Z
的预加重处理，1-0.98Z-1的时域形式为1-0.98δ(t-1)，预加重后的语音信号b(t)＝s(t)*[1-0.98δ(t-1)]＝s(t)-0.98s(t-1)，其中，δT(t)为冲激函数，n′为整数；
[0096] 2)用窗长25ms，窗移10ms的汉明窗对语音信号进行加窗分帧处理：分帧采用交叠分段的方法，前一帧和后一帧的交叠部分称为帧移长度M，用可移动的有限长度窗口进行加权的方法来实现的，即用窗函数ω′(t)来乘预加重后的语音信号b(t)，从而形成加窗语音信号x(t)，x(t)＝b(t)·ω′(t)，本发明采用汉明窗ω′(t)，其窗函数为：
[0097]
[0098] N为窗长，窗长即帧长，窗移即N-M，帧移长度M为15ms，
[0099] 加窗分帧处理后得到的第i帧语音信号为xi(t)，则xi(t)满足下式：
[0100] xi(t)＝ω′(t+l)b(t)，0≤t≤N-1
[0101] 其中，l＝0，1(N-M)，2(N-M)，…，(总帧数-1)(N-M)，M为帧移长度，N为帧长即窗长，
[0102] 3)语音信号的端点检测：利用语音信号的短时能量进行端点检测
[0103] 设第i帧语音信号xi(t)的短时能量用Ei表示，则计算公式如下：
[0104]
[0105] 设置两个门限，一个较低的门限Tlow，Tlow＝min(Ei，i＝1，2，...，总帧数)·0.1，数值比较小，对信号的变化比较敏感；一个较高的门限Thigh，Thigh＝max(Ei，i＝1，2...，总帧数)·0.1，当Thigh第一次被超过时，断定为区域语音信号的开始，当短时能量降到Tlow以下就代表区域语音信号的结束，
[0106] 4)利用语音区间检测时使用的短时能量对输入波形数据进行规整，即进行归一化处理，使得输入语音基本上按等幅进行频率分析，方法为：第i帧语音信号xi(t)的短时能量Ei，归一化后的第i帧语音信号xi(t)的短时能量为
[0107]
[0108] 5)降噪处理：
[0109] I：采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声：
[0110] 第 i 帧语音信号 xi(t) 含有噪声的傅里叶变换为 xi(ω)，ω为频率，j为虚数单位，则第i帧语音信号xi(t)的幅值
谱为|xi(ω)|，其功率为：|xi(ω)|2，除噪后的第i帧语音信号为xinew(t)，其幅值谱为|xinew(ω)|，则除噪后的第i帧语音信号的功率为：
2 2
|xinew(ω)|，推定的噪声功率为|ni(ω)|，在整个区域语音以外的当前输入第i帧信号为
2
yi(t)，其帧功率为|yi(ω)|，对于第i帧语音信号幅值谱的
第o元素，噪声下的语音功率为|xi(ω)|2o，推定的噪声功率是|ni(ω)|2o，除噪后的语音功率是|xinew(ω)|2o，为了补偿第4)步中由于规整而丢失的能量信息，推定噪声功率估计修正为：|ni(ω)|2o＝(1-β)|ni-1(ω)|2o+βEi′|yi(ω)|2o，0＜β＜1，本发明中取β＝0.55，[0111] SS权值系数修正为
[0112] 其中0＜θ1，θ2＜1，φ1和φ2是
常数其中，φ1＝0.1，φ2＝0.3，θ1＝0.2，θ2＝0.8，Ei为第i帧语音信号的短时能量，
2
Ei′为第i帧语音信号归一化后的短时能量，|yi(ω)|o为在整个区域用语音以外的当前输入信号帧功率，
[0113] 除噪后语音的功率为：
[0114]
[0115] II：利用基于最大后验概率(MAP)的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声：
[0116] 设对于第i帧倒谱的第o元素，噪声下的语音倒谱是Co(i)，是采用第I种降噪后的xinew(t)对数幅值谱的第o元素的傅里叶逆变换，即
|xinew(ω)|o表示第i帧语音信号幅值谱的第o元素，除噪后语音的倒谱是
[0117]
[0118] 式中γ是自适应训练系数，γ＞1，Co0是表示先验分布的初始估计值，0＜Co0＜1，k为总帧数，γ＝2，Co0＝0.95，
[0119] 6)经过上述预处理过程之后的语音信号为xnew′(t)，t为时间变量，其第i帧语音信号为xinew′(t)，
[0120] 特征参数提取阶段
[0121] 1)对预处理后的每一帧语音信号分别求取14维LPC系数：
[0122] 设第i帧语音信号为xinew′(t)的功率谱为|Xinew′(ejω)|2，Xinew′(ejω)即信号谱，表示第i帧语音信号xinew′(t)的傅里叶变换，由|Xinew′(ejω)|2
jω 2
＝|H(e )| 求出14维LPC系数ap，p＝1，2，...，14，
[0123] 则第i帧语音信号的声道模型系统函数H(z)为：
[0124]
[0125] 其冲激响应为h(n″)，表示h(n″)的复倒谱，则有：
[0126]
[0127] 将式(3)代入(4)式并将其两边对z-1求导数，有：
[0128]
[0129] n″为正整数，令上式左右两边的常数项和z-1各次幂的系数分别相等，从而可由LPC系数ap求出LPC复倒谱
[0130]
[0131] 从而LPC倒谱系数LPCC： c(n″)为LPC倒谱系数LPCC，
[0132] 2)利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数：
[0133] I：根据人的听觉特性，把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换，求出如下所示的LPC美尔倒谱系数LPCMCC：
[0134]
[0135] 这里，MCg(d)为LPC美尔倒谱系数LPCMCC，d为迭代次数，g为美尔倒谱阶数，d＝g＝9，c(n″)为LPC倒谱系数，当d＞9时，MCg(d)＝0，并且当抽样频率为8kHz时，ε取0.31，迭代是从高到低，即d从大到0取值，最后求得的美尔倒谱系数放在MC0(0)，MC1(0)，...，MC9(0)里面，组成一个10维的特征矢量的时间序列，
[0136] II：求取一阶的倒谱线性回归系数ΔLPCMCC：
[0137]
[0138] r为阶数取1，Pr(X′，N′)表示求取r阶线性回归系数时的加权函数，当r＝1时，Pr(X′，N′)＝X′，C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数，ΔT为15ms，由LPCMCC，求出10维的一阶的倒谱线性回归系数ΔLPCMCC，
[0139] 3)将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数，组成一个20维的特征参数矢量Vector，
[0140] 3.语音识别
[0141] I.语音识别方法采用基于概率尺度DP识别方法
[0142] 1)用基于概率尺度的动态规划DP算法进行时间规整
[0143] 以单词作为一个识别单元，利用模板匹配方法进行识别，在训练阶段，将训练数据中每个单词中提取的特征矢量时间序列作为模板存入模板库；在识别阶段，将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出，所述的待识别语音采用基于概率尺度的动态规划DP算法进行时间规整：
[0144] 待识别语音特征参数共有k帧矢量，设相应的参考模板共有J帧矢量，且k≠J，动态时间规整就是寻找一个时间规整函数它将测试矢量的时间轴u非线性的映射到模板的时间轴v上，并使该函数满足：
[0145]
[0146] 式中，是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢
量B(v)之间的距离测度，D是处于最优时间规整情况下的两矢量的距离，得到的两矢量匹配是累计距离最小的规整函数，接着，用基于概率尺度动态规划DP算法来寻找最优的规整函数
[0147] 基于概率尺度的DP方法的递推公式为：
[0148]
[0149] G(u，v)是当前匹配帧(u，v)的概率，PS1，PS2，PS3为带到改点的路径，DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径，组成的折线段对应的函数即为最优规整函数
[0150] a)条件概率P(Xu|v)的计算
[0151] 假定在状态v观测到的Xu是符合(μv，∑v)的高斯分布，μv为均值，∑v为方差，Xu为第u帧语音特征参数矢量，则条件概率
[0152] ∑v和μv为与Xu同维数的向
量，维数是20，(Xu-μv)t表示向量(Xu-μv)的转置，
[0153] 为了求出各个时刻的均值和方差，首先选择一个学习样本序列即训练数据序列作为核心样本，然后输入一个同类的学习数据和核心样本进行DP匹配即利用上述概率计算公式依次找出匹配点和带到该匹配点的最优路径寻找最佳路径函数这时各个时刻的均值和方差通过最佳路径函数找出和核心样本对应时刻的输入帧矢量进行计算和更新，如此重复直到同类的学习数据用完为止，渐进地求出各个时刻的均值和方差。
[0154] b)状态转移概率的计算
[0155] 上述公式里logPPS1(v)，logPPS2(v)，logPPS3(v)分别表示Q((u-2，v-1)→(u，v))、Q((u-1，v-1)→(u，v))、Q((u-1，v-2)→(u，v))三个状态转移的转移概率，计算状态转移概率的方法：各个学习数据和核心样本进行DP匹配时，记下各时刻选择的路径情况，学习完毕后，假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v)，则此时的三个状态转移概率可由下式计算得到：
[0156] PPS1(v)＝PS1(v)/{PS1(v)+PS2(v)+PS3(v)}
[0157] PPS2(v)＝PS2(v)/{PS1(v)+PS2(v)+PS3(v)}
[0158] PPS3(v)＝PS3(v)/{PS1(v)+PS2(v)+PS3(v)}
[0159] 求出最优规整函数后，将待识别的语音特征参数矢量的时间序列的时间轴作为坐标的横轴，非线性的映射到作为坐标纵轴的模板矢量的时间轴上：
[0160] 2)利用模式匹配的方法进行识别
[0161] 最优路径函数的起点与终点之间的距离即为待识别语音与模板语音之间的距离，与待识别语音距离最小的模板对应的单词字音即判为识别结果。
[0162] II.语音识别试验及结果输出
[0163] 本发明进行了两个实验，第一个实验是非特定人英语连续数字语音识别实验。采用35个4位数英语连续语音数字，邀请20名男性每个人对35个4位数字各发音3遍，其中12个人的发音作为训练用数据，另8个人的发音作为识别用数据。然后，利用日本电子协会标准噪声数据库中的行驶中的汽车(2000cc组，一般道路)内的噪声(平稳噪声)和展览会中的展示隔间内的噪声(非平稳噪声)，把这些噪声按一定的信噪比(SNR)叠加进无噪连续数字语音中组成带噪语音。并且为了模拟网络语音，把这些语音信号先通过如下的滤波器再进行识别处理。识别结果如表1所表。
[0164]
[0165] fl＝300Hz fh＝3400Hz
[0166] 表1：英语连续数字语音识别结果[％]
[0167]
[0168] 第二个识别实验是户外实际场所的电话语音识别实验。我们选择50个人名，由3人对50个人名各发音3遍，其中2遍发音作为训练用数据，另1遍发音作为识别用数据。实验是利用在学校门口、交通道路和学校食堂3种不同的环境下用电话采集的语音进行的。
结果是这3种环境下的识别概率分别是96％、90.4％、92.4％，达到了较高的识别精度。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供