基于多层增强HMM的语音-视觉融合的情感识别方法

发明专利无效专利

申请号：
CN201210459172.6
IPC分类号：G06K9/62G06K9/66G06K9/00
申请日期：
2012-11-15
申请人：
北京理工大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	基于多层增强HMM的语音-视觉融合的情感识别方法
申请号	CN201210459172.6	申请日期	2012-11-15
法律状态	权利终止	申报国家	中国
公开/公告日	2013-02-13	公开/公告号	CN102930298A
优先权	暂无	优先权号	暂无
主分类号	G06K9/62 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06K 数据识别；数据表示；记录载体；记录载体的处理（印刷本身入B41J） G06K9/00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置（用于图表阅读或者将诸如力或现状态的机械参量的图形转换为电信号的方法或装置入G06K 11/00；语音识别入G10L 15/00）〔1，7〕 G06K9/62 应用电子设备进行识别的方法或装置〔3〕	IPC分类号	G06K9/62;G06K9/66;G06K9/00查看分类表>
申请人	北京理工大学	申请人地址	北京市海淀区中关村南大街5号软*** 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	北京理工大学	当前权利人	北京理工大学
发明人	吕坤;贾云得;邹文泽;张欣
代理机构	暂无	代理人	暂无

摘要

本发明提出的一种基于多层增强HMM（MBHMM）的语音-视觉融合的情感识别方法，属于自动情感识别领域。本发明方法中提出的MBHMM分类器包括3层整体分类器，每层整体分类器由从左向右的多个连续型HMM分量分类器组合而成。使用情绪视频中的语音、脸部表情、肩部运动三种特征流分别作为3层整体分类器的输入，在训练整体分类器时通过AdaBoost方法不断更新各样本的权重，同时通过AdaBoost方法确保在使用某一特征流训练当前层整体分类器时着重于前一特征流的整体分类器难于识别的样本。本发明方法与已有识别方法相比较明显提高了分类的准确度。

1.一种多层增强HMM的语音-视觉融合的情感识别方法，用于识别情感视频中的人的情感，所述情感包括：中性、高兴、生气、惊讶、恐惧、悲伤、厌恶；所述情感视频是指包含人脸表情、肩部运动和语音的视频数据，并且每段情感视频都开始于中性表情；其特征在于：
所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分：训练过程和识别过程；
所述训练过程的具体实施步骤如下：
步骤一、对训练数据中的情感视频数据进行预处理；
将每一种情感的训练数据称为一个训练样本集；一个训练样本集中的训练样本数量用R表示，R≥20；分别对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列、肩部观察向量序列和音频观察向量序列；一个训练样本集中的全部情感视频数据在预处理后，得到的表情观察向量序列的集合称为表情特征数据流，得到的肩部观察向量序列的集合称为肩部特征数据流，得到的音频观察向量序列的集合称为音频特征数据流，这三种特征数据流用符号Xv表示， v∈{a,f,s}；其中，a表示音频，f表示表情，s表示肩部；表示v特征数据流中的第r个音频观察向量序列、表情观察向量序列和肩部观察向量序列，即：表示音频特征数据流中第r个音频特征观察序列，表示表情特征数据流中第r个表情特征观察序列，表示肩部特征数据流中第r个肩部运动特征观察序列 1≤r≤R；
所述对每个训练样本集中的每个情感视频数据做预处理，得到表情观察向量序列和肩部观察向量序列的具体步骤为：
第1步：从每个情感视频中以va的采样率提取m帧图像组成一个图像序列，va≥5赫兹，m＝va×ta，ta为情感视频的时间长度；
第2步：依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值，分别用T1至Tθ表示，θ≥5；
所述脸部表情特征值包括：脸部几何特征值；脸部纹理特征值；
第3步：为了解决因不同人脸型不同造成的对脸部表情特征值T1至Tθ的影响，对所有图像的脸部表情特征值T1至Tθ进行归一化处理，具体为：
第3.1步：从全部图像序列中找出包含待处理图像中人脸的所有图像序列；所述待处理图像为当前等待做归一化处理的图像；
第3.2步：分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Tθ的均值，分别用至表示；
第3.3步：用T1对待处理图像的脸部表情特征值T1进行归一化处理，归一化处理后的脸部表情特征值T1用符号T′ 1表示，用对待处理图像的脸部表情特征值T2进行归一化处理，归一化处理后的脸部表情特征值T2用符号T′ 2表示， ……；
以此类推，用对待处理图像的脸部表情特征值Tθ进行归一化处理，归一化处理后的脸部表情特征值Tθ用符号T′ θ表示，
第4步：获得每个图像序列中各帧图像的表情观察向量，用Vq表示，1≤q≤m；一个图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的θ个特征值组成，T
Vq＝[fq1,fq2,……,fqθ]，fq1为该图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′1，fq2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′2，……，以此类推，fqθ为该图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值T′θ；
第5步：对于一个情感视频，使用矩阵M来表示其表情观察向量序列,M＝[V1,V2,……θ×m
,Vm]∈R ；
第6步：依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值，分别用L1至Lδ表示，δ≥5；
第7步：为了解决因不同人体型不同造成的对肩部运动特征值L1至Lδ的影响，对所有图像的肩部运动特征值L1至Lδ进行归一化处理，具体为：
第7.1步：从全部图像序列中找出包含待处理图像中人脸的所有图像序列；所述待处理图像为当前等待做归一化处理的图像；
第7.2步：分别计算经过第7.1步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L1的均值、L2的均值、……、Lδ的均值，分别用至表示；
第7.3步：用对待处理图像的肩部运动特征值L1进行归一化处理，归一化处理后的肩部运动特征值L1用符号L′ 1表示，用对待处理图像的肩部运动特征值L2进行归一化处理，归一化处理后的肩部运动特征值L2用符号L′ 2表示， ……；
以此类推，用对待处理图像的肩部运动特征值Lδ进行归一化处理，归一化处理后的肩部运动特征值Lδ用符号L′ δ表示，
第8步：获得每个图像序列中各帧图像的肩部观察向量，用V″q表示，1≤q≤m；一个图像序列中第q帧图像的肩部观察向量V″q由经过第7步归一化处理后的δ个肩部运T
动特征值组成，V″q＝[f″ q1,f″q2,……,f″qδ]，f″q1为该图像序列的第q帧图像中经过归一化处理的第1个肩部运动特征值L′1，f″q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L′2，……，以此类推，f″qδ为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L′δ；
第9步：对于一个情感视频，使用矩阵M″来表示其肩部观察向量序列,M″＝δ×m
[V″1,V″2,……,V″m]∈R ；
步骤一中所述对每个训练样本集中的每个情感视频数据做预处理，得到音频观察向量序列的具体步骤为：
步骤a：从每个情感视频中以vb的采样率提取p个音频帧组成一条音频序列，vb≥5赫兹，p＝vb×ta；
步骤b：依次从每条音频序列的各音频帧中提取α个音频特征值，分别用F1～Fα表示，α≥4；
所述音频特征值包括：信号强度；短时过零率；基音频率；共振峰频率；线性预测倒谱系数；线谱对参数；Mel频率倒谱系数；感知线性预测倒谱系数；
步骤c：对所有音频帧的音频特征值F1～Fα进行归一化处理，具体为：
步骤c.1：找出与待处理音频帧为同一发声人物的所有中性情感的音频序列；所述待处理音频帧为当前等待做归一化处理的音频帧；
步骤c.2：分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fα的均值，分别用至表示；
步骤c.3：用对待处理音频帧的音频特征值F1进行归一化处理，归一化处理后的音频特征值F1用符号F′1表示，用对待处理音频帧的音频特征值F2进行归一化处理，归一化处理后的音频特征值F2用符号F′ 2表示， ……；以此类推，用对待处理音频帧的音频特征值Fα进行归一化处理，归一化处理后的音频特征值Fα用符号F′α表示，
步骤d：获得每个音频序列中各音频帧的音频观察向量，用V′t表示，1≤t≤p；一个音频序列中的第t帧音频帧的音频观察向量V′t由经过归一化处理后的α个特征值组成，T
V′t＝[f′ t1,f′t2,……,f′tα]，f′t1为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′1，f′t2为该音频序列的第t帧音频帧中经过归一化处理的第
2个音频特征值F′2，……，以此类推，f′tα为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′α；
步骤f：对于一个情感视频，使用矩阵M′来表示其音频观察向量序列，M′＝α×p
[V′1,V′2,……,V′p]∈R ；
步骤二、建立MBHMM分类器；
在步骤一操作的基础上，建立MBHMM分类器；所述MBHMM分类器包括第1层整体分类器、第2层整体分类器和第3层整体分类器；每层整体分类器由从左向右的K′个连续型HMM分量分类器组合而成，1≤K′≤K，K的值由人为预先设定，4≤K≤10；三层整体分类器中连续型HMM分量分类器的模型参数表示为λ＝{N,A,wi,d,μi,d,Ui,d,π}；其中，N表示模型的状态数；π表示状态初始概率；A为状态转移概率矩阵，A＝{ai,j}，1≤i,j≤N，ai,j表示从状态Si转移到状态Sj的概率；
用S＝{S1,S2,……,SN}表示状态集合，Si＝i；
观察概率密度函数为混合高斯密度函数，如公式(1)所示；
其中，bt′(i)表示t′时刻状态为Si时的观察概率密度函数；Ot′是t′时刻的观察向量，即样本在t′时刻的表情观察向量或肩部观察向量或音频观察向量；N(Ot′,μi,d,Ui,d)表示状态Si的第d个高斯概率密度函数，1≤d≤D，D为混合高斯密度函数的混合数，
2≤D≤5；wi,d,μi,d,Ui,d分别表示状态Si的第d个高斯概率密度函数的混合权重、均值向量和协方差矩阵；
第1层整体分类器和第2层整体分类器中的连续型HMM分量分类器的状态数N＝5；
第3层整体分类器中的连续型HMM分量分类器的状态数N＝3；
当N＝5时，设定π为[1 0 0 0 0]，同时设定状态转移概率矩阵A的初值为：
当N＝3时，设定π为[1 0 0]，同时设定状态转移概率矩阵A的初值为：
设定高斯概率密度函数的混合权重wi,d的初始值为高斯概率密度函数的协方差矩阵Ui,d的初始值是一个行数和列数均为P的对角协方差矩阵：
当观察向量Ot′是表情观察向量时，P＝θ；当观察向量Ot′是肩部观察向量时，P＝δ；
当观察向量Ot′是音频观察向量时，P＝α；
高斯概率密度函数的均值向量μi,d的初始值产生方法为：将输入观察序列分成N段，然后用K均值聚类算法产生高斯概率密度函数的均值向量μi,d的初始值；
步骤三、训练MBHMM分类器；
在步骤二操作的基础上，同时训练C个MBHMM分类器，C表示情感类别的数量；即：
对应每一种情感，训练一个MBHMM分类器；用φc表示第c种情感对应的MBHMM分类器，
1≤c≤C；
使用第c种情感的训练样本集对MBHMM分类器φc进行训练的过程为：
步骤1：使用变量L，并设定变量L的初始值为1，然后执行步骤2至步骤11的操作；
步骤2：用表示MBHMM分类器φc中第L层整体分类器，用WL(r)表示输入到整体分v
类器的特征数据流X中的第r个观察向量序列的权重；当L＝1时，将带有权重WL(r)的音频特征数据流Xa输入到整体分类器 WL(r)＝1/R；当L＝2时，将带有权重WL(r)f
的表情特征数据流X输入到整体分类器当L＝3时，将带有权重WL(r)的肩部特征数s
据流X输入到整体分类器
步骤3：用表示整体分类器中包含的连续型HMM分量分类器的个数，并设定的初始值为K；使用变量k，并设定变量k的初始值为1；然后执行步骤4至步骤10的操作；
步骤4：用表示整体分类器中的第k个连续型HMM分量分类器；将步骤2中所v
述输入到整体分类器中的特征数据流X输入到连续型HMM分量分类器中，该特征数据流中的第r个观察向量序列的权重为wk(r)，1≤r≤R；当k＝1时，wk(r)＝WL(r)；
步骤5：使用EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数，得到连续型HMM分量分类器的最优模型参数，其具体操作为：
步骤5.1：通过公式(2)计算所述连续型HMM分量分类器中各观察向量序列的前向概率，1≤r≤R；
其中，表示连续型HMM分量分类器在t1时刻处于状态Si，并且从第1时刻
到t1时刻出现的概率，也称为前向概率；2≤t1≤Tr；当L＝1时，Tr＝p；
当L＝2或3时，Tr＝m；αr,1(i)＝πb1(i)；表示第r个样本在第1时刻
至t1时刻的观察向量；
步骤5.2：通过公式(3)计算所述连续型HMM分量分类器中各观察向量序列的后向概率；
其中，表示连续型HMM分量分类器在t2时刻处于状态Sj，并且从(t2+1)时刻到Tr时刻出现的概率，也称为后向概率；1≤t2≤Tr-1；当L＝1时，Tr＝p；当L＝2或3时，Tr＝m；表示第r个样本在第(t2+1)时
刻至Tr时刻的观察向量；
步骤5.3：通过公式(4)计算所述连续型HMM分量分类器中各观察向量序列的概率Pr；
其中，表示连续型HMM分量分类器在Tr时刻的状态取值；当L＝1时，Tr＝p；
当L＝2或3时，Tr＝m；表示连续型HMM分量分类器在初始时刻的状态取值；
步骤5.4：使用公式(5)至公式(9)，利用各观察向量序列在步骤5.1中得到的前向概率步骤5.2中得到的后向概率和步骤5.3得到的观察向量序列的概率Pr
重估连续型HMM分量分类器的模型参数A、wi,d、μi,d和Ui,d；
其中，ξr,t′(i,d)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器的状态Si的第d个高斯密度函数下的概率；
其中，ξr,t′(i,d′)表示第r个样本在t′时刻的观察向量Or,t′在连续型HMM分量分类器的状态Si的第d′个高斯密度函数下的概率；
其中，当L＝1时，Tr＝p；当L＝2或3时，Tr＝m；
步骤5.5：判断连续型HMM分量分类器的模型参数A、wi,d、μi,d和Ui,d是否均收敛；
如非均收敛，返回到步骤5.1；否则，则将步骤5.4得到的A、wi,d、μi，d和Ui，d以及步骤二设定的状态初始概率π作为连续型HMM分量分类器的最优模型参数；
v
步骤6：使用步骤4中所述输入到连续型HMM分量分类器的特征数据流X验证步骤5得到的连续型HMM分量分类器具体验证方法为：用表示观察向量序
列是否被连续型HMM分量分类器正确分类，如果观察向量序列被正确分类，设定否则，设定
步骤7：通过公式(14)计算连续型HMM分量分类器的训练误差，用表示；
步骤8：使用变量k′，并设定k′＝k+1；
步骤9：通过公式(15)依次计算输入到第k′个连续型HMM分量分类器的观察向量序列的权重，用wk′(r)表示，1≤r≤R；
其中，Zk′是归一化因子，
步骤10：如果此时k≠K，并且的值不大于某一预先设定值σ，0＜σ≤0.5，则令k＝k′，wk(r)＝wk′(r)，然后返回到步骤4；否则，得到整体分类器令然后执行步骤11；
步骤11：判断变量L的值是否小于3，如果L＜3，则执行步骤12至步骤16；如果L≥3，则得到MBHMM分类器φc，结束操作；
v
步骤12：使用步骤2中所述输入到第L层整体分类器的特征数据流X验证步
骤10得到的整体分类器具体验证方法为：用表示观察向量序列是否被
整体分类器正确分类，如果观察向量序列被正确分类，设定否则，设定步骤13：通过公式(17)计算整体分类器的训练误差，用表示；
步骤14：使用变量L′，并设定L′＝L+1；
步骤15：通过公式(18)依次计算输入到整体分类器的特征数据流中的第r个观察向量序列的权重，用WL′(r)表示；
其中，Z′L′是归一化因子，
步骤16：令L＝L′，WL(r)＝WL′(r)，然后返回到步骤2；
所述识别过程的具体实施步骤如下：
步骤四、对待识别情感视频x进行预处理，得到待识别情感视频的表情观察向量序列f s a
x、肩部观察向量序列x和音频观察向量序列x ；
所述得到待识别情感视频x的表情观察向量序列和肩部观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列和肩部观察向量序列的具体步骤一致；
所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致；
步骤五、判断待识别情感视频的情感类别，具体过程为：
a
第a步：将待识别情感视频的音频观察向量序列x作为每一种情感的MBHMM分类器φc的第1层整体分类器中的每一个连续型HMM分量分类器的观察序列；将待识别情感视频的f
表情观察向量序列x作为每一种情感的MBHMM分类器φc的第2层整体分类器中的每一个s
连续型HMM分量分类器的观察序列；将待识别情感视频的肩部观察向量序列x作为每一种情感的MBHMM分类器φc的第3层整体分类器中的每一个连续型HMM分量分类器的观察序列；
a f s
第b步：分别计算待识别情感视频x的观察向量序列x、x和x 在MBHMM分类器φc中对应连续型HMM分量分类器下的概率
a f s
第c步：通过公式(19)计算待识别情感视频x的观察向量序列x、x和x ，在MBHMM分类器φc中对应整体分类器下的概率
第d步：通过公式(20)计算待识别情感视频x，在MBHMM分类器φc下的概率Pc；
第e步：从第d步得到的概率Pc中找到最大值，得到该最大值的MBHMM分类器对应的情感即为待识别情感视频所属的情感类别。
2.如权利要求1所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第2步中所述依次从每个图像序列中的各帧图像中提取θ个脸部几何特征值，θ＝10，其具体步骤为：
第2.1步：依次在每个图像序列中的第一帧图像中标识出20个脸部特征点；其中，第
1、2特征点分别位于右边眉毛和左边眉毛的眉头位置，分别用(x1,y1)、(x2,y2)表示；第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置，分别用(x3,y3)、(x4,y4)表示；第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置，分别用(x5,y5)、(x6,y6)表示；第7、8特征点分别位于右边眼睛和左边眼睛的最低点，分别用(x7,y7)、(x8,y8)表示；第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置，分别用(x9,y9)、(x10,y10)表示；第11、12特征点分别位于右边眼睛和左边眼睛的最高点，分别用(x11,y11)、(x12,y12)表示；第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置，分别用(x13,y13)、(x14,y14)表示；第15特征点位于鼻尖位置，用(x15,y15)表示；第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置，分别用(x16,y16)、(x17,y17)表示；第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点，分别用(x18,y18)、(x19,y19)表示；第20特征点位于脸部中心线与脸部轮廓线相交的最低点，用(x20,y20)表示；
第2.2步：根据每个图像序列中的第一帧图像中的20个特征点的位置，定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点；
第2.3步：根据各图像中的20个特征点的位置，分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至T10，具体为：(1)两眼宽度的平均值，用T1表示，T1＝(|x9-x5|+|x10-x6|)/2；(2)两眼高度的平均值，用T2表示，T2＝(|y11-y7|+|y12-y8|)/2；
(3)两支眉毛宽度的平均值，用T3表示，T3＝(|x3-x1|+|x4-x2|)/2；(4)两支眉毛高度的平均值，用T4表示，T4＝(|y3-y1|+|y4-y2|)/2；(5)内眼角和眉头之间垂直距离的均值,用T5表示，T5＝(|y5-y1|+|y6-y2|)/2；(6)鼻尖和左右嘴角的垂直距离均值,用T6表示，T6＝(|y16-y15|+|y17-y15|)/2；(7)嘴角和外眼角垂直距离的均值，用T7表示，T7＝(|y16-y9|+|y17-y10|)/2；(8)嘴张开宽度，用T8表示，T8＝|x17-x16|；(9)嘴张开高度，用T9表示，T9＝|y18-y19|；(10)鼻尖和下巴的距离，用T10表示，T10＝|y15-y20|。
3.如权利要求2所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第2步第2.1步中所述标识20个脸部特征点的方法包括：①人工手动标识；②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
4.如权利要求2或3所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第2步第2.2步中所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括：①人工手动标识；②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
5.如权利要求2或3所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第2步第2.3步中所述计算脸部表情特征值T8至T10的优选方法是：在第2.3步操作的基础上，在每个图像序列中的第n帧图像中，1＜n＜m，将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
6.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤一第6步中所述依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值，δ＝10，其具体步骤为：
第6.1步：依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点；其中，第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置，分别用(x′1,y′1)、(x′2,y′2)；第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置，分别用(x′3,y′3)、(x′4,y′4)表示；第5肩部运动特征点位于喉咙位置，用(x′5,y′5)表示；
所述依次在每个图像序列中的第一帧图像中标识5个肩部运动特征点的方法包括：人工手动标识；
第6.2步：根据每个图像序列中的第一帧图像中的5个肩部运动特征点的位置，定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点；
所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括：①人工手动标识；②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪；
第6.3步：根据各图像中的5个肩部运动特征点的位置，分别计算每个图像序列中的各帧图像的10个肩部运动特征值L1至L10，具体为：将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的水平位移作为该帧图像的第1个肩部运动特征值，用L1表示；将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的水平位移作为该帧图像的第2个肩部运动特征值，用L2表示；以此类推，将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的水平位移作为该帧图像的第5个肩部运动特征值，用L5表示；将每帧图像的第1个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第1个肩部运动特征点的垂直位移作为该帧图像第6个肩部运动特征值，用L6表示；将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的垂直位移作为该帧图像第7个肩部运动特征值，用L7表示；以此类推，将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的垂直位移作为该帧图像第10个肩部运动特征值，用L10表示。
7.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤三步骤5的操作还可以是：使用改进EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数，得到最优模型参数，其操作步骤与使用EM算法迭代调整步骤4中所述连续型HMM分量分类器的模型参数的操作步骤之间的区别仅在于步骤54步中的公式(6)至公式(9)分别用公式(10)至公式(13)替换；
改进EM算法使得迭代求解HMM分量分类器模型参数的过程中考虑到各样本的权重，使得训练着重于难于识别的样本。
8.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤三步骤6中所述判断某一特征观察序列是否被连续型HMM分量分类器正确分类的方法为：
步骤6.1：首先取出MBHMM分类器φc中的连续型HMM分量分类器然后对其
它并行训练的(C-1)个MBHMM分类器分别进行如下操作：如果 c′∈{1,2,……,c-1}∪{c+1,c+2,……,C}，表示整体分类器中包含的连续型HMM分量分类器的个数，则取出第c′个MBHMM分类器中的连续型HMM分量分类器否则，取出第c′个MBHMM分类器中的连续型HMM分量分类器
步骤6.2：分别计算观察向量序列在步骤6.1取出的C个连续型HMM分量分类器下的概率；如果观察向量序列属于第c个情感类别，且观察向量序列在连续型HMM分量分类器下的概率最大，则认为观察向量序列被正确分类；否则，认为观察向量序列未被正确分类。
9.如权利要求1至3之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法，其特征在于：训练过程的步骤三步骤12中所述判断某一特征观察序列是否被整体分类器正确分类的方法为：
首先取出第c个MBHMM分类器φc中的第L层整体分类器然后分别取出其它并行训练的(C-1)个MBHMM分类器φc′中的第L层整体分类器通过公式(16)分别计算观察向量序列在这C个整体分类器下的概率，用符号表示；如果观察向量序列属于第c类情感类别，且观察向量序列在整体分类器下的概率最大，则认为观察向量序列被正确分类；否则，认为观察向量序列未被正确分类；

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN101201980A	2008-06-18	2007-12-19	一种基于语音情感识别的远程汉语教学系统失效专利	北京交通大学
2	CN1662922A	2005-08-31	2003-06-13	通过视觉和语音识别测量内容分级无效专利	皇家飞利浦电子股份有限公司
3	CN101685634A	2010-03-31	2008-09-27	一种儿童语音情感识别方法失效专利	上海盛淘智能科技有限公司