1.一种多层增强HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶;所述情感视频是指包含人脸表情、肩部运动和语音的视频数据,并且每段情感视频都开始于中性表情;其特征在于:
所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程;
所述训练过程的具体实施步骤如下:
步骤一、对训练数据中的情感视频数据进行预处理;
将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20;分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列、肩部观察向量序列和音频观察向量序列;一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的肩部观察向量序列的集合称为肩部特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这三种特征数据流用符号Xv表示, v∈{a,f,s};其中,a表示音频,f表示表情,s表示肩部; 表示v特征数据流中的第r个音频观察向量序列、表情观察向量序列和肩部观察向量序列,即: 表示音频特征数据流中第r个音频特征观察序列, 表示表情特征数据流中第r个表情特征观察序列, 表示肩部特征数据流中第r个肩部运动特征观察序列 1≤r≤R;
所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和肩部观察向量序列的具体步骤为:
第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va≥5赫兹,m=va×ta,ta为情感视频的时间长度;
第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ≥5;
所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值;
第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响,对所有图像的脸部表情特征值T1至Tθ进行归一化处理,具体为:
第3.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像;
第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值,分别用 至表示;
第3.3步:用T1对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T′ 1表示, 用 对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T′ 2表示, ……;
以此类推,用 对待处理图像的脸部表情特征值Tθ进行归一化处理,归一化处理后的脸部表情特征值Tθ用符号T′ θ表示,
第4步:获得每个图像序列中各帧图像的表情观察向量,用Vq表示,1≤q≤m;一个图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成,T
Vq=[fq1,fq2,……,fqθ],fq1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1,fq2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2,……,以此类推,fqθ为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ;
第5步:对于一个情感视频,使用矩阵M来表示其表情观察向量序列,M=[V1,V2,……θ×m
,Vm]∈R ;
第6步:依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,分别用L1至Lδ表示,δ≥5;
第7步:为了解决因不同人体型不同造成的对肩部运动特征值L1至Lδ的影响,对所有图像的肩部运动特征值L1至Lδ进行归一化处理,具体为:
第7.1步:从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像;
第7.2步:分别计算经过第7.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L1的均值、L2的均值、……、Lδ的均值,分别用 至表示;
第7.3步:用 对待处理图像的肩部运动特征值L1进行归一化处理,归一化处理后的肩部运动特征值L1用符号L′ 1表示, 用 对待处理图像的肩部运动特征值L2进行归一化处理,归一化处理后的肩部运动特征值L2用符号L′ 2表示, ……;
以此类推,用 对待处理图像的肩部运动特征值Lδ进行归一化处理,归一化处理后的肩部运动特征值Lδ用符号L′ δ表示,
第8步:获得每个图像序列中各帧图像的肩部观察向量,用V″q表示,1≤q≤m;一个图像序列中第q帧图像的肩部观察向量V″q由经过第7步归一化处理后的δ个肩部运T
动特征值组成,V″q=[f″ q1,f″q2,……,f″qδ],f″q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′1,f″q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′2,……,以此类推,f″qδ为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′δ;
第9步:对于一个情感视频,使用矩阵M″来表示其肩部观察向量序列,M″=δ×m
[V″1,V″2,……,V″m]∈R ;
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为:
步骤a:从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列,vb≥5赫兹,p=vb×ta;
步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1~Fα表示,α≥4;
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数;线谱对参数;Mel频率倒谱系数;感知线性预测倒谱系数;
步骤c:对所有音频帧的音频特征值F1~Fα进行归一化处理,具体为:
步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧;
步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值,分别用 至 表示;
步骤c.3:用 对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F′1表示, 用 对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F′ 2表示, ……;以此类推,用对待处理音频帧的音频特征值Fα进行归一化处理,归一化处理后的音频特征值Fα用符号F′α表示,
步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′t表示,1≤t≤p;一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成,T
V′t=[f′ t1,f′t2,……,f′tα],f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1,f′t2为该音频序列的第t帧音频帧中经过归一化处理的第
2个音频特征值F′2,……,以此类推,f′tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α;
步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=α×p
[V′1,V′2,……,V′p]∈R ;
步骤二、建立MBHMM分类器;
在步骤一操作的基础上,建立MBHMM分类器;所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器;每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成,1≤K′≤K,K的值由人为预先设定,4≤K≤10;三层整体分类器中连续型HMM分量分类器的模型参数表示为λ={N,A,wi,d,μi,d,Ui,d,π};其中,N表示模型的状态数;π表示状态初始概率;A为状态转移概率矩阵,A={ai,j},1≤i,j≤N,ai,j表示从状态Si转移到状态Sj的概率;
用S={S1,S2,……,SN}表示状态集合,Si=i;
观察概率密度函数为混合高斯密度函数,如公式(1)所示;
其中,bt′(i)表示t′时刻状态为Si时的观察概率密度函数;Ot′是t′时刻的观察向量,即样本在t′时刻的表情观察向量或肩部观察向量或音频观察向量;N(Ot′,μi,d,Ui,d)表示状态Si的第d个高斯概率密度函数,1≤d≤D,D为混合高斯密度函数的混合数,
2≤D≤5;wi,d,μi,d,Ui,d分别表示状态Si的第d个高斯概率密度函数的混合权重、均值向量和协方差矩阵;
第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N=5;
第3层整体分类器中的连续型HMM分量分类器的状态数N=3;
当N=5时,设定π为[1 0 0 0 0],同时设定状态转移概率矩阵A的初值为:
当N=3时,设定π为[1 0 0],同时设定状态转移概率矩阵A的初值为:
设定高斯概率密度函数的混合权重wi,d的初始值为 高斯概率密度函数的协方差矩阵Ui,d的初始值是一个行数和列数均为P的对角协方差矩阵:
当观察向量Ot′是表情观察向量时,P=θ;当观察向量Ot′是肩部观察向量时,P=δ;
当观察向量Ot′是音频观察向量时,P=α;
高斯概率密度函数的均值向量μi,d的初始值产生方法为:将输入观察序列分成N段,然后用K均值聚类算法产生高斯概率密度函数的均值向量μi,d的初始值;
步骤三、训练MBHMM分类器;
在步骤二操作的基础上,同时训练C个MBHMM分类器,C表示情感类别的数量;即:
对应每一种情感,训练一个MBHMM分类器;用φc表示第c种情感对应的MBHMM分类器,
1≤c≤C;
使用第c种情感的训练样本集对MBHMM分类器φc进行训练的过程为:
步骤1:使用变量L,并设定变量L的初始值为1,然后执行步骤2至步骤11的操作;
步骤2:用 表示MBHMM分类器φc中第L层整体分类器,用WL(r)表示输入到整体分v
类器 的特征数据流X中的第r个观察向量序列 的权重;当L=1时,将带有权重WL(r)的音频特征数据流Xa输入到整体分类器 WL(r)=1/R;当L=2时,将带有权重WL(r)f
的表情特征数据流X输入到整体分类器 当L=3时,将带有权重WL(r)的肩部特征数s
据流X输入到整体分类器
步骤3:用 表示整体分类器 中包含的连续型HMM分量分类器的个数,并设定的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4至步骤10的操作;
步骤4:用 表示整体分类器 中的第k个连续型HMM分量分类器;将步骤2中所v
述输入到整体分类器 中的特征数据流X输入到连续型HMM分量分类器 中,该特征数据流中的第r个观察向量序列 的权重为wk(r),1≤r≤R;当k=1时,wk(r)=WL(r);
步骤5:使用EM算法迭代调整步骤4中所述连续型HMM分量分类器 的模型参数,得到连续型HMM分量分类器 的最优模型参数,其具体操作为:
步骤5.1:通过公式(2)计算所述连续型HMM分量分类器 中各观察向量序列 的前向概率,1≤r≤R;
其中, 表示连续型HMM分量分类器 在t1时刻处于状态Si,并且从第1时刻
到t1时刻出现 的概率,也称为前向概率;2≤t1≤Tr;当L=1时,Tr=p;
当L=2或3时,Tr=m;αr,1(i)=πb1(i); 表示第r个样本在第1时刻
至t1时刻的观察向量;
步骤5.2:通过公式(3)计算所述连续型HMM分量分类器 中各观察向量序列 的后向概率;
其中, 表示连续型HMM分量分类器 在t2时刻处于状态Sj,并且从(t2+1)时刻到Tr时刻出现 的概率,也称为后向概率;1≤t2≤Tr-1;当L=1时,Tr=p;当L=2或3时,Tr=m; 表示第r个样本在第(t2+1)时
刻至Tr时刻的观察向量;
步骤5.3:通过公式(4)计算所述连续型HMM分量分类器 中各观察向量序列 的概率Pr;
其中, 表示连续型HMM分量分类器 在Tr时刻的状态取值;当L=1时,Tr=p;
当L=2或3时,Tr=m; 表示连续型HMM分量分类器 在初始时刻的状态取值;
步骤5.4:使用公式(5)至公式(9),利用各观察向量序列 在步骤5.1中得到的前向概率 步骤5.2中得到的后向概率 和步骤5.3得到的观察向量序列的概率Pr
重估连续型HMM分量分类器 的模型参数A、wi,d、μi,d和Ui,d;
其中,ξr,t′(i,d)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器 的状态Si的第d个高斯密度函数下的概率;
其中,ξr,t′(i,d′)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器 的状态Si的第d′个高斯密度函数下的概率;
其中,当L=1时,Tr=p;当L=2或3时,Tr=m;
步骤5.5:判断连续型HMM分量分类器 的模型参数A、wi,d、μi,d和Ui,d是否均收敛;
如非均收敛,返回到步骤5.1;否则,则将步骤5.4得到的A、wi,d、μi,d和Ui,d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器 的最优模型参数;
v
步骤6:使用步骤4中所述输入到连续型HMM分量分类器 的特征数据流X验证步骤5得到的连续型HMM分量分类器 具体验证方法为:用 表示观察向量序
列 是否被连续型HMM分量分类器 正确分类,如果观察向量序列 被正确分类,设定否则,设定
步骤7:通过公式(14)计算连续型HMM分量分类器 的训练误差,用 表示;
步骤8:使用变量k′,并设定k′=k+1;
步骤9:通过公式(15)依次计算输入到第k′个连续型HMM分量分类器 的观察向量序列 的权重,用wk′(r)表示,1≤r≤R;
其中,Zk′是归一化因子,
步骤10:如果此时k≠K,并且 的值不大于某一预先设定值σ,0<σ≤0.5,则令k=k′,wk(r)=wk′(r),然后返回到步骤4;否则,得到整体分类器 令 然后执行步骤11;
步骤11:判断变量L的值是否小于3,如果L<3,则执行步骤12至步骤16;如果L≥3,则得到MBHMM分类器φc,结束操作;
v
步骤12:使用步骤2中所述输入到第L层整体分类器 的特征数据流X验证步
骤10得到的整体分类器 具体验证方法为:用 表示观察向量序列 是否被
整体分类器 正确分类,如果观察向量序列 被正确分类,设定 否则,设定步骤13:通过公式(17)计算整体分类器 的训练误差,用 表示;
步骤14:使用变量L′,并设定L′=L+1;
步骤15:通过公式(18)依次计算输入到整体分类器 的特征数据流中的第r个观察向量序列 的权重,用WL′(r)表示;
其中,Z′L′是归一化因子,
步骤16:令L=L′,WL(r)=WL′(r),然后返回到步骤2;
所述识别过程的具体实施步骤如下:
步骤四、对待识别情感视频x进行预处理,得到待识别情感视频的表情观察向量序列f s a
x、肩部观察向量序列x和音频观察向量序列x ;
所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致;
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致;
步骤五、判断待识别情感视频的情感类别,具体过程为:
a
第a步:将待识别情感视频的音频观察向量序列x作为每一种情感的MBHMM分类器φc的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列;将待识别情感视频的f
表情观察向量序列x作为每一种情感的MBHMM分类器φc的第2层整体分类器中的每一个s
连续型HMM分量分类器的观察序列;将待识别情感视频的肩部观察向量序列x作为每一种情感的MBHMM分类器φc的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列;
a f s
第b步:分别计算待识别情感视频x的观察向量序列x、x和x 在MBHMM分类器φc中对应连续型HMM分量分类器 下的概率
a f s
第c步:通过公式(19)计算待识别情感视频x的观察向量序列x、x和x ,在MBHMM分类器φc中对应整体分类器 下的概率
第d步:通过公式(20)计算待识别情感视频x,在MBHMM分类器φc下的概率Pc;
第e步:从第d步得到的概率Pc中找到最大值,得到该最大值的MBHMM分类器对应的情感即为待识别情感视频所属的情感类别。
2.如权利要求1所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,θ=10,其具体步骤为:
第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第
1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示;
第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;
第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;
(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
3.如权利要求2所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.1步中所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
4.如权利要求2或3所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.2步中所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
5.如权利要求2或3所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第2步第2.3步中所述计算脸部表情特征值T8至T10的优选方法是:在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1<n<m,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
6.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤一第6步中所述依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,δ=10,其具体步骤为:
第6.1步:依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点;其中,第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置,分别用(x′1,y′1)、(x′2,y′2);第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置,分别用(x′3,y′3)、(x′4,y′4)表示;第5肩部运动特征点位于喉咙位置,用(x′5,y′5)表示;
所述依次在每个图像序列中的第一帧图像中标识5个肩部运动特征点的方法包括:人工手动标识;
第6.2步:根据每个图像序列中的第一帧图像中的5个肩部运动特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点;
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪;
第6.3步:根据各图像中的5个肩部运动特征点的位置,分别计算每个图像序列中的各帧图像的10个肩部运动特征值L1至L10,具体为:将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的水平位移作为该帧图像的第1个肩部运动特征值,用L1表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的水平位移作为该帧图像的第2个肩部运动特征值,用L2表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的水平位移作为该帧图像的第5个肩部运动特征值,用L5表示;将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的垂直位移作为该帧图像第6个肩部运动特征值,用L6表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的垂直位移作为该帧图像第7个肩部运动特征值,用L7表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的垂直位移作为该帧图像第10个肩部运动特征值,用L10表示。
7.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤三步骤5的操作还可以是:使用改进EM算法迭代调整步骤4中所述连续型HMM分量分类器 的模型参数,得到最优模型参数,其操作步骤与使用EM算法迭代调整步骤4中所述连续型HMM分量分类器 的模型参数的操作步骤之间的区别仅在于步骤54步中的公式(6)至公式(9)分别用公式(10)至公式(13)替换;
改进EM算法使得迭代求解HMM分量分类器模型参数的过程中考虑到各样本的权重,使得训练着重于难于识别的样本。
8.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤三步骤6中所述判断某一特征观察序列 是否被连续型HMM分量分类器 正确分类的方法为:
步骤6.1:首先取出MBHMM分类器φc中的连续型HMM分量分类器 然后对其
它并行训练的(C-1)个MBHMM分类器分别进行如下操作:如果 c′∈{1,2,……,c-1}∪{c+1,c+2,……,C}, 表示整体分类器 中包含的连续型HMM分量分类器的个数,则取出第c′个MBHMM分类器中的连续型HMM分量分类器 否则,取出第c′个MBHMM分类器中的连续型HMM分量分类器
步骤6.2:分别计算观察向量序列 在步骤6.1取出的C个连续型HMM分量分类器下的概率;如果观察向量序列 属于第c个情感类别,且观察向量序列 在连续型HMM分量分类器 下的概率最大,则认为观察向量序列 被正确分类;否则,认为观察向量序列未被正确分类。
9.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于:训练过程的步骤三步骤12中所述判断某一特征观察序列 是否被整体分类器 正确分类的方法为:
首先取出第c个MBHMM分类器φc中的第L层整体分类器 然后分别取出其它并行训练的(C-1)个MBHMM分类器φc′中的第L层整体分类器 通过公式(16)分别计算观察向量序列 在这C个整体分类器下的概率,用符号 表示;如果观察向量序列 属于第c类情感类别,且观察向量序列 在整体分类器 下的概率最大,则认为观察向量序列被正确分类;否则,认为观察向量序列 未被正确分类;
基于多层增强HMM的语音-视觉融合的情感识别方法\n技术领域\n[0001] 本发明涉及一种多通道信息融合的情感识别方法,特别涉及一种多层增强HMM(Multilayer Boosted HMM,HMM)的语音-视觉融合的情感识别方法,属于自动情感识别领域。\n背景技术\n[0002] 各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使用离散类别方法表示(如Ekman提出的6种基本情感类别),或者使用连续维度方法表示(如activation-evaluation空间方法),或者使用基于评价的方法表示。脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情感状态。研究人员已经针对单模态情感识别与分析做了很多工作。\n[0003] 融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用的数据融合方法大都可以归为以下三类:特征层融合、模型层融合和决策层融合。模型层融合使用了多个数据流之间的关联信息,可能是该融合问题的最佳选择。Zeng等人在文献《Audio–Visual Affective Expression Recognition Through Multistream Fused HMM》(IEEE TRANSACTIONS ON MULTIMEDIA,vol.10,no.4,June 2008)中提出了一种多流融合HMM(MFHMM)方法,根据最大熵和最大相互信息准则,建立多个语音-视觉流间的优化连接。MFHMM通过将一个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量HMM。他们接着在文献《Training Combination Strategy of Multi-Stream Fused Hidden Markov Model for Audio-Visual Affect Recognition》(Proc.14th ACM Int’l Conf.Multimedia(Multimedia’06),pp.65-68,2006.)中扩展了该框架,采用训练组合策略,使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis等人在文献《Audiovisual Discrimination between Laughter and Speech》(IEEE Int’l Conf.Acoustics,Speech,and Signal Processing(ICASSP),pp.5117-5120,2008.)中使用神经网络来合并语音-视觉通道的信息。这些方法的缺点是:这些方法在使用某个模态的特征流训练分类器时,没有对用其它模态的特征难于识别的样本进行重点训练,在使用同一模态的样本进行训练时,也未对同一模态的样本中难于识别的样本进行重点训练,从而造成识别率不高。\n[0004] 本发明中涉及到的重要已有技术有:隐马尔可夫模型;AdaBoost方法。\n[0005] (1)隐马尔可夫模型:\n[0006] 隐马尔可夫模型是一种有效的描述存在于离散时间段上的具有关联关系的数据序列的统计学方法。\n[0007] 隐马尔科夫模型的理论基础是在1970年前后由Baum等人建立起来的,随后有CMU的Baker和IBM的Jelinek等人将其应用到语音识别之中,由于Bell实验室Rabiner等人在80年代中期对隐马尔科夫模型的深入浅出的介绍,才逐渐使隐马尔科夫模型为世界各国从事语音处理的研究员所了解和熟悉,进而成为公认的一个研究热点。\n[0008] 隐马尔科夫模型是在Markov链(一种有限状态机)的基础上发展起来的。首先介绍两个概念:状态集合和观察序列。状态集合指隐马尔科夫模型所具有的全部状态{S1,...,Si,...,SN},其中N为状态数;观察序列是一个具有上下文关联性的数据序列,用v1,...,vt,...,vT表示,v1,...,vt,...,vT为一个观测序列,其中vt=cb,表示该序列中时刻t的元素的取值为cb,1≤b≤B,B表示每个状态可输出的元素(值)的总数。\n[0009] 由于实际问题比Markov链模型所描述的更为复杂,观察到的观察序列中的元素并不是与Markov链中的状态一一对应,而是通过一组概率分布相联系。这样,站在观察者的角度,只能看到观察值,不像Markov链模型中的观察值和状态一一对应。因此,不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性,这就是所谓的“隐”Markov模型,即Hidden Markov Model(HMM)。\n[0010] 隐马尔科夫模型的三个基本问题是:评估问题、解码问题及学习问题。其中,学习问题是使模型参数最优化,及调整模型参数,以使模型能最好的描述一个给定观测序列,最好的说明这个观测序列就是最优化模型产生出来的,用来解决分类问题。\n[0011] (2)AdaBoost方法:\n[0012] AdaBoost(adaptive boosting,自适应增强)方法是“Boosting”方法中的一种。\n该方法允许设计者不断的加入新的“弱分类器”,直到达到某个预定的足够小的误差率。在AdaBoost方法中,每一个训练样本都被赋予一个权重,表明它被某个分量分类器选入训练集的概率;相反,如果某个样本点没有被正确分类,那么它的权重就得到提高。通过这样的方式,AdaBoost方法能够“聚焦于”那些较困难识别的样本上。\n发明内容\n[0013] 本发明的目的是为了解决已有技术存在的识别率不高的问题,提出一种多层增强HMM的语音-视觉融合的情感识别方法。\n[0014] 本发明的目的是通过下述技术方案实现的。\n[0015] 一种多层增强HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶;所述情感视频是指包含人脸表情、肩部运动和语音的视频数据,并且每段情感视频都开始于中性表情。所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程。\n[0016] 所述训练过程的具体实施步骤如下:\n[0017] 步骤一、对训练数据中的情感视频数据进行预处理。\n[0018] 将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20。分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列、肩部观察向量序列和音频观察向量序列。一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的肩部观察向量序列的集合称为肩部特征数据流,得到的音频观察向量序列的集合称为音频特征数据v\n流,这三种特征数据流用符号X表示, v∈{a,f,s};其中,a表示音频,f表示表情,s表示肩部;表示v特征数据流中的第r个观察向量序列音频观察向量序列表情观察向量序列肩部观察向量序列;1≤r≤R。\n[0019] 所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和肩部观察向量序列的具体步骤为:\n[0020] 第1步:从每个情感视频中以va的采样率提取m帧图像组成一个图像序列,va≥5赫兹(Hz),m=va×ta,ta为情感视频的时间长度。由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像。\n[0021] 第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T1至Tθ表示,θ≥5。\n[0022] 所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值。\n[0023] 步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值,θ=10,其具体步骤为:\n[0024] 第2.1步:依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;\n第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第\n5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第\n7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、\n12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、\n14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。\n[0025] 所述标识20个脸部特征点的方法包括:①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。\n[0026] 第2.2步:根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;\n[0027] 所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。\n[0028] 第2.3步:根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示,T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示,T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示,T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示,T7=(|y16-y9|+|y17-y10|)/2;\n(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。\n[0029] 由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至T10的影响,第2.3步中所述计算脸部表情特征值T8至T10的优选方法是:在第2.3步操作的基础上,在每个图像序列中的第n帧图像中,1
法律信息
- 2019-11-05
未缴年费专利权终止
IPC(主分类): G06K 9/62
专利号: ZL 201210459172.6
申请日: 2012.11.15
授权公告日: 2015.04.29
- 2015-04-29
- 2013-03-20
实质审查的生效
IPC(主分类): G06K 9/62
专利申请号: 201210459172.6
申请日: 2012.11.15
- 2013-02-13
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-06-18
|
2007-12-19
| | |
2
| |
2005-08-31
|
2003-06-13
| | |
3
| |
2010-03-31
|
2008-09-27
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |