著录项信息
专利名称 | 一种基于频域分析的静态人脸表情合成方法 |
申请号 | CN201310241382.2 | 申请日期 | 2013-06-18 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2013-08-28 | 公开/公告号 | CN103268623A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06T11/00 | IPC分类号 | G;0;6;T;1;1;/;0;0;;;G;0;6;T;5;/;5;0查看分类表>
|
申请人 | 西安电子科技大学 | 申请人地址 | 陕西省西安市太白南路2号西安电子科技大学
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 西安电子科技大学 | 当前权利人 | 西安电子科技大学 |
发明人 | 田春娜;蒲倩;高新波;袁博;王代富;李东阳;李英;赵林;郑红;陆阳 |
代理机构 | 北京科亿知识产权代理事务所(普通合伙) | 代理人 | 汤东凤 |
摘要
一种基于频域分析的静态人脸表情合成方法,包括如下步骤:(1)多表情人脸图像的对齐步骤;(2)将源人物和目标人物的中性表情变形到源人物表情的形状下;(3)在频域提取源人物的表情细节;(4)计算目标人物特有的面部特征子图像;(5)将源人物的表情细节子图像与目标人物特有的面部特征子图像相融合,得到最终的表情转移图像。本发明所需样本量少;从图像的频域特性出发,能更好的提取人脸图像的表情细节,且合成图像不受光照变化的影响,鲁棒性好;通过人脸表情的迁移,合成的人脸图像既保留了目标人物特有的面部特征又包含了源人物的表情细节,将目标人物特有的面部特征和源人物的表情细节有机的结合在一起,因此合成的人脸表情更自然、更逼真。
一种基于频域分析的静态人脸表情合成方法\n技术领域\n[0001] 本发明属于计算机视觉与计算机图形学领域,特别涉及一种基于频域分析的静态人脸表情合成方法。\n背景技术\n[0002] 面部表情是一种微妙的形体语言,也是人们传递情感信息的重要手段,对人脸图像进行表情分析,可有效洞悉人物的内心世界。美国心理学家AlbertMehrabian的研究表明,在人们面对面进行的交流中,面部表情传递的信息量可达55%,可见表情使得人际交往更为生动。近年来,人脸表情的合成在计算机视觉和图形学领域中的人物动画合成、人机交互和电视会议等应用中备受关注。人脸表情的变化不仅包括整体面部特征的运动变形(如嘴和眼睛的睁开或闭合),而且包括局部外观的细微变化(如人脸皮肤局部的褶皱和凸凹),这些局部的细节往往是判定表情的重要视觉线索,然而它们合成起来却非常困难。因此,如何生成自然、逼真的人脸表情仍然是一个有待探索的问题。\n[0003] 目前,人脸表情合成的研究主要包含基于静态和动态人脸表情合成方法两大类。\n由于人脸在表情变化时会引起眼部和嘴部等器官的形变,最直观的静态表情合成方法是基于形变的合成技术。该技术给定或者训练出待合成表情的形状,然后将中性表情人脸的纹理都映射到目标表情形状下,从而实现人脸表情的合成。该类技术考虑了表情变化过程中特征点的运动,但是忽略了表情变化过程中人脸表面诸多微小的褶皱等的变化。为准确的表达人脸的几何和纹理变化,研究人员通常采用主动表观模型(Active appearance model,AAM)将人脸分为形状和纹理分量,通过对人脸纹理分量的进一步合成来得到人脸表情细节。典型的方法有微软的Zicheng Liu等人在文献“Liu Z,Shan Y,Zhang Z.Expressive expression mapping with ratio images.In:Proceedings of International Conference on Computer Graphics and Interactive Techniques,271-\n276,2001”中将图像表情率(目标表情到中性表情的变化)和形变模型相结合以合成带表情细节的人脸纹理。新加坡国立大学的Huang Dong等人在文献“Huang D,Torre F.Bilinear kernel reduced rank regression for facial expression synthesis.In:Proceedings of the European Conference on Computer Vision,364-377,2010”中融合形变的纹理和双线性核降秩回归法合成多表情人脸,该方法既保持合成目标特有的纹理,又保持了训练样本的平均表情细节。\n[0004] 第二类是动态人脸表情合成技术。主要通过人脸的三维模型或者表情流形合成人脸的动态表情。典型的方法如韩国电子通信研究院的Hyewon Pyun等在文献“Pyun H,Kim Y,Chae W,et al.An example-based approach for facial expression cloning.In:\nProceedings of the Eurographics Symposium on Computer animation,167-176,2003”中用计算机图形学的方法合成了三维人脸动画模型。韩国浦项市科技大学的Lee等在文献“Lee H,Kim D.Tensor-based AAM with continuous variation estimation:\nApplication to variation robust face recognition.IEEE Transaction on Pattern Analysis and Machine Intelligence,31(6):1102-1116,2009”中提出了基于非线性张量脸的多表情人脸生成模型。该模型对AAM对齐后的人脸图像分离身份和表情的因素,并构建表情流形,沿着流形的变化,合成出训练图像的动态表情。但是,该文没有涉及身份未知图像的表情合成。\n[0005] 以上合成的表情具有平均性,人脸上有20余组面部肌肉受面神经的支配,面神经控制着表情的变化。这些面部肌肉运动的组合方法不计其数,因此,面部表情常因人而异。\n研究表明,不同人在做某个相同表情时的风格未必相似。如不同的人在欢乐或者悲伤时的表情相差很大,但总体的面部特征运动又有相似之处。因此,研究特定人物的表情迁移,即将源人物的表情复制在目标人物的脸上的方法在实际中有广泛的应用前景。而已有的人脸一般表情合成或表情迁移方法都是基于时域特征进行人脸表情纹理的合成,而表情细节往往在频域有比较明显的变化,为此,上述方法往往合成的人脸表情不够显著,从而影响图像的视觉逼真度。\n发明内容\n[0006] 本发明的目的在于克服上述已有技术的不足,提出一种基于频域分析的特有人脸的静态表情迁移合成方法,使合成的表情图像既保持目标人物的面部外貌,又包含源人物的表情细节,实现自然、逼真的静态人脸表情迁移。\n[0007] 为实现上述目的,本发明的技术方案包括如下步骤:\n[0008] (1)多表情人脸图像的对齐步骤,其包括;\n[0009] (1.1a)对多表情人脸数据集,根据脸的轮廓、眉毛、眼睛、鼻子和嘴的位置,将特征点标注在各区域的轮廓线上得到人脸图像的形状;\n[0010] (1.1b)采用AAM模型分离人脸的形状和纹理信息,由标定好的人脸形状得到各个表情下的平均形状;\n[0011] (1.1c)通过Delaunay三角划分和仿射变换将人脸纹理变形到平均人脸形状下;\n[0012] (2)将源人物和目标人物的中性表情变形到源人物表情的形状下;\n[0013] (3)在频域提取源人物的表情细节;\n[0014] (4)计算目标人物特有的面部特征子图像;\n[0015] (5)将源人物的表情细节子图像与目标人物特有的面部特征子图像相融合,得到最终的表情转移图像。\n[0016] 在上述技术方案的基础上,所述步骤(3)包括如下步骤:\n[0017] (2a)对源人物的形变表情图像和带表情人脸图像分别做一级二维离散小波分解,得到两组分解后的图像,每组图像都包含四个频带上的子图像,分别是:低频子图像、垂直高频子图像、水平高频子图像和对角高频子图像;\n[0018] (2b)将上述两组频率域的子图像按照频带对应相减,得到四个差异子图像;\n[0019] (2c)将差异子图像进行归一化,求出合成图像时各个频带上所需的权值m;\n[0020] (2d)通过如下函数分别提取源人物在4个频带上的表情细节子图像:\n[0021]\n[0022]\n[0023]\n[0024]\n[0025] 其中, 表示提取的源人物的表情细节, 表示源人物\n带表情图像小波分解后的系数,{mll,mlh,mhl,mhh}代表合成图像时各个频带上所需的权值,下标ll,lh,hl,hh分别代表低频、垂直高频、水平高频和对角高频子图像,ε是一个常系数调节因子,且ε的取值范围在0.1~0.4之间。\n[0026] 在上述技术方案的基础上,计算各个频带上所需的权值m,按如下过程进行:\n[0027] (3a)对源人物的形变表情图像和带表情人脸图像分别做一级二维离散小波分解,得到两组分解后的图像,每组图像都包含低频、垂直高频、水平高频和对角高频四个频带上的子图像;\n[0028] (3b)m计算方法如下:\n[0029] m=(Se-Sw)/rang(Se-Sw)\n[0030] 其中,Se为源人物带表情人脸图像经小波分解后在该频带上的子图像,Sw为源人物e w e w e w\n形变表情图像经小波分解后在该频带上的子图像,rang(S-S )=max(S-S )-min(S-S )表示对应频带的频率范围。\n[0031] 在上述技术方案的基础上,步骤(4)所述的计算目标人物特有的面部特征子图像,按如下过程进行:\n[0032] (4a)对目标人物形变出的中性表情纹理图像进行一级二维离散小波分解,得到低频、垂直高频、水平高频和对角高频四个频带上的子图像,分别用 表示;\n[0033] (4b)通过如下规则求得目标人物特有的面部特征子图像:\n[0034]\n[0035]\n[0036]\n[0037]\n[0038] 其中, 分别表示各个频带上目标人物特有的面部特征子图像。\n[0039] 在上述技术方案的基础上,步骤(5)所述的将源人物的表情细节子图像与目标人物特有的面部特征子图像相融合,按如下过程进行:\n[0040] (5a)将源人物的表情细节子图像与目标人物特有的面部特征子图像分别在对应频带上相加,生成四个频带上的合成子图像;\n[0041] (5b)对上述四个合成子图像做二维逆离散小波变换,生成最终的表情转移图像。\n[0042] 相对于现有技术,本发明将目标人物特有的面部特征和源人物的表情细节融合在一起,这样合成的人脸表情看起来更为逼真。本发明在合成图像时,只需给出源人物的中性表情和带表情图像,所需样本量少;并且本发明从图像的频域特性出发,相比已有的图像域合成方法,能更好的提取人脸图像的表情细节,且合成图像不受光照变化的影响,鲁棒性好;通过人脸表情的迁移,合成的人脸图像既保留了目标人物特有的面部特征又包含了源人物的表情细节,因此,合成具有个性的人脸表情,使得本发明使用范围更广;并且本发明提出的融合方法将目标人物特有的面部特征和源人物的表情细节有机的结合在一起,因此合成的人脸表情更自然、更逼真。\n附图说明\n[0043] 图1是本发明提出的多表情人脸合成流程框图;\n[0044] 图2是本发明提出的静态人脸表情合成方法的详细示意图;\n[0045] 图3是对多表情人脸进行形状标记和Delaunay三角划分的示意图;\n[0046] 图4是合成效果图。\n具体实施方式\n[0047] 下面将结合附图及具体实例对本发明进行详细描述。\n[0048] 参照图1和图2,本发明的频域人脸静态表情合成方法主要包括如下步骤:\n[0049] 步骤一,多表情人脸图像的对齐:\n[0050] (1a)用AAM模型将人脸分为形状和纹理两个部分进行信息建模,人脸形状由附图3所示的人脸显著特征点(如眼睛、眉毛、嘴巴等的轮廓特征点)组成,而人脸纹理就是指覆盖在人脸轮廓内的图像像素信息;\n[0051] (1b)根据标定好的人脸样本形状得到各个表情下的平均形状,然后将人脸样本变形到平均人脸形状下,从而实现多表情人脸样本的对齐,得到与形状无关的纹理信息,具体过程如下:\n[0052] 对人脸形状特征点进行Delaunay三角剖分,可将人脸表示成若干三角形所组成的网格,如附图3所示,将每张人脸按照当前形状与平均形状之间的三角形对应关系通过仿射变换变形到该表情的平均形状下,三角形I(其顶点坐标用矩阵I表示)变形到三角形I′(其顶点坐标用矩阵i表示)的过程描述如下:\n[0053] 对应三角形间的仿射变换矩阵A可由下式表示,\n[0054] A=I×iT\n[0055] 其矩阵表示如下:\n[0056]\n[0057] a1~a6为仿射变换系数,(x1,y1),(x2,y2),(x3,y3)为平均脸上对应三角形的三个顶点的坐标,(X1,Y1),(X2,Y2),(X3,Y3)分别表示待变换三角形的对应顶点的坐标,iT表示矩阵i的转置。\n[0058] 由上述求得的仿射变换矩阵A,可求得与平均人脸三角形I′的任一点o(ox,oy)相对应的点O(Ox,Oy)在三角形I内的坐标。因为三角形I所对应的人脸图像是已知的,所以三角形内所有的坐标点的灰度值是已知的,用下式所示的方法将O点的灰度值映射到o点。\n[0059]\n[0060] 当计算出来的O点坐标为小数时,从O点周围的值插值得到o的灰度。对人脸形状上的三角形逐个进行上述操作,即可实现任意表情人脸到其对应表情下的平均形状的对齐。\n[0061] 步骤二,将源人物和目标人物的中性表情变形到源人物的表情形状下:\n[0062] (2a)取源人物和目标人物的中性表情人脸图像,利用AAM提取它们各自的纹理信息,对提取的纹理信息进行Delaunay三角划分;\n[0063] (2b)通过仿射变换将源人物和目标人物的中性表情的纹理映射到源人物带表情人脸的形状下,分别得到形变后的源人物和目标人物的形变表情图像。\n[0064] 步骤三,在频域提取源人物的表情细节:\n[0065] (3a)分别用 和 表示源人物带表情人脸图像和形变\n表情纹理图像小波分解后的系数,其中,下标ll,lh,hl,hh分别代表低频、垂直高频、水平高频和对角高频子图像;\n[0066] (3b)将上述小波分解得到的两组系数分别按照频带对应相减,得到四个差异子图像,分别用{Dll,Dlh,Dhl,Dhh}表示,其计算过程如下:\n[0067]\n[0068]\n[0069]\n[0070]\n[0071] (3c)将差异子图像进行归一化,求出合成图像时各个频带上所需的权值m,4个频带上的权值分别计算如下:\n[0072] mll=Dll/(max(Dll)-min(Dll))\n[0073] mlh=Dlh/(max(Dlh)-min(Dlh))\n[0074] mhl=Dhl/(max(Dhl)-min(Dhl))\n[0075] mhh=Dhh/(max(Dhh)-min(Dhh))\n[0076] (3d)通过如下函数分别提取源人物在4个频带上的表情细节子图像:\n[0077]\n[0078]\n[0079]\n[0080]\n[0081] 其中,ε是一个常系数调节因子,且ε的取值范围在0.1~0.4之间。\n[0082] 步骤四,计算目标人物特有的面部特征子图像:\n[0083] (4a)对目标人物形变出的中性表情纹理图像进行一级二维离散小波分解,得到低频、垂直高频、水平高频和对角高频四个频带上的子图像,分别用 表示;\n[0084] (4b)通过如下规则求得目标人物特有的面部特征子图像:\n[0085]\n[0086]\n[0087]\n[0088]\n[0089] 其中, 分别表示各个频带上目标人物特有的面部特征子图像。\n[0090] 步骤五,将目标人物特有的面部特征子图像与源人物的表情细节子图像分别在对应频带上相加,生成四个频带上的子图像;对上述四个子图像做二维逆离散小波变换,合成最终的表情转移图像。\n[0091] 本发明的优点可通过以下实验进一步说明:\n[0092] 1.实验条件\n[0093] 本发明的实验是在扩展的Cohn-Kande数据库(CK+)上进行的。CK+数据库中包含97个人的486个表情序列,每个表情序列中都是包括人脸表情图像从中立到峰值的。在这个数据库中,所有的图像都被手动的或自动的标定为主动表观模型。本实验选取了392个表情序列,其中高兴的表情序列有69个,惊讶的有83个,厌恶的有69个,害怕的有52个,悲伤的有62个,生气的有44个,蔑视的有13个。在每个表情序列中,只有一个中立表情,一个从中立到峰值变化过程中的表情作为源人物图像,取一个中立表情作为目标人物图像。通过主动表观模型,所有的图像都被形变到统一尺寸下,即115×111个像素。\n[0094] 2.实验结果,参照附录中图4。\n[0095] 附图4中,(a)为4组不同表情下的源人物图像,每组图像分别包括源人物的中性表情图像和带表情图像;(b)为目标人物的中性表情图像;(c)则为通过本专利提出的方法将(a)中源人物的表情转移到目标人物的脸上而合成的表情人脸图像。\n[0096] 从(c)图可以看出,本发明提出的方法得到的合成图像不仅包含源人物特有的表情细节,而且包含目标人物的面部特征,所以合成的图像看起来更为逼真、自然。\n[0097] 本发明利用AAM模型将人脸图像对齐到各个表情的平均形状下,选取源人物和目标人物的中性表情人脸图像,通过仿射变换将这两幅中性表情人脸图像分别映射到源人物带表情的人脸形状下,分别得到形变后的源人物和目标人物表情图像,但该图像缺少面部的表情细节;其次,对源人物的带表情图像和形变表情图像分别进行一级二维离散小波分解,在频域得到源人物带表情图像和形变表情图像的差异,根据该差异计算出合成图像时所需的权值;最后,根据该权值在频域提取源人物的表情细节和目标人物特有的面部特征,将源人物的表情细节和目标人物特有的面部特征相融合,对融合结果做二维逆离散小波变换,合成目标人物带表情的人脸图像。\n[0098] 最后应当说明的是,以上实例仅用以说明本发明的技术方案而非限制,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神范围,如将步骤二至步骤五中用一级二维离散小波变换进行频域分析的方法替换为小波包变换或多级小波变换的方法,其均应涵盖在本发明的权利要求范围当中。
法律信息
- 2016-05-18
- 2013-09-25
实质审查的生效
IPC(主分类): G06T 11/00
专利申请号: 201310241382.2
申请日: 2013.06.18
- 2013-08-28
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2009-06-03
|
2008-12-30
| | |
2
| |
2006-07-05
|
2004-12-30
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |