著录项信息
专利名称 | 一种人脸运动跟踪方法和系统以及一种增强现实方法 |
申请号 | CN201110335178.8 | 申请日期 | 2011-10-28 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2012-01-25 | 公开/公告号 | CN102332095A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/00 | IPC分类号 | G;0;6;K;9;/;0;0查看分类表>
|
申请人 | 中国科学院计算技术研究所 | 申请人地址 | 北京市海淀区中关村科学院南路6号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中国科学院计算技术研究所 | 当前权利人 | 中国科学院计算技术研究所 |
发明人 | 夏时洪;冀鼎皇;魏毅 |
代理机构 | 北京泛华伟业知识产权代理有限公司 | 代理人 | 王勇 |
摘要
本发明提供一种人脸运动跟踪方法和系统以及一种增强现实方法,该人脸运动跟踪方法,包括:1)提取视频图像的人脸特征点和人脸轮廓特征;2)确定所述人脸特征点的个数;3)对于所述人脸特征点的个数是大于预设阈值的情况,利用所述人脸特征点以及3维模型对视频图像中的人脸进行运动跟踪,对于所述人脸特征点的个数小于或等于预设阈值的情况,利用所述人脸轮廓特征进行运动跟踪。该方法能够准确跟踪头部运动而避免丢失所确定的人脸特征点;而且在实时跟踪时,通信网络只需传输少量脸部运动数据,适用于多种手机平台,对硬件条件要求不高,因此可应用到视频通话交互中以提高通话的趣味性和交互性。
1.一种人脸运动跟踪方法,包括:
1)提取视频图像的人脸特征点和人脸轮廓特征;
2)确定所述人脸特征点的个数;
3)对于所述人脸特征点的个数是大于预设阈值的情况,利用所述人脸特征点以及3维模型对视频图像中的人脸进行运动跟踪,对于所述人脸特征点的个数小于或等于预设阈值的情况,利用所述人脸轮廓特征进行运动跟踪;其中利用所述人脸轮廓特征进行运动跟踪包括以下步骤:
根据所述视频图像的人脸轮廓特征与不同类别的训练人脸图像的轮廓特征的中心的距离,确定所述视频图像所属类别;
根据所属类别将所述视频图像的轮廓特征带入对应类别的回归方程来确定人脸的朝向。
2.根据权利要求1所述的方法,其特征在于,所述步骤3)中所述利用所述人脸特征点以及3维模型对视频图像中的人脸进行运动跟踪进一步包括以下步骤:
31)计算使 最小的矩阵P,其中ui表示3维模型上的点,表示所述人脸特征点,m为所述人脸特征点的个数的一半;
32)根据所述矩阵P确定人脸的位置和朝向。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤3)中所述3维模型是Candide-3模型。
4.根据权利要求1或2所述的方法,其特征在于,所述步骤1)中所述提取视频图像的人脸特征点包括:
11)提取视频图像的特征;
12)根据所述特征确定所述视频图像的人脸特征点。
5.根据权利要求4所述的方法,其特征在于,所述步骤11)中所述特征是类哈尔特征、联合哈尔特征、旋转哈尔特征或离散哈尔特征。
6.根据权利要求4所述的方法,其特征在于,所述步骤1)中所述提取视频图像的人脸特征点还包括:
13)根据步骤12)所提取的人脸特征点采用主动形状模型、主动表观模型或约束局部模型进一步提取人脸特征点以用于步骤2)。
7.根据权利要求1或2所述的方法,其特征在于,所述步骤1)前还包括对视频图像进行预处理的步骤。
8.一种人脸运动跟踪系统,其包括:
特征提取模块,用于提取视频图像的人脸特征点和人脸轮廓特征;
特征确定模块,用于确定所述人脸特征点的个数;
跟踪模块,用于对于所述人脸特征点的个数是大于预设阈值的情况,利用所述人脸特征点以及3维模型对视频图像中的人脸进行运动跟踪,对于所述人脸特征点的个数小于或等于预设阈值的情况,利用所述人脸轮廓特征进行运动跟踪;其中,利用所述人脸轮廓特征进行运动跟踪包括:根据所述视频图像的人脸轮廓特征与不同类别的训练人脸图像的轮廓特征的中心的距离,确定所述视频图像所属类别;根据所属类别将所述视频图像的轮廓特征带入对应类别的回归方程来确定人脸的朝向。
9.一种增强现实方法,其包括:
权利要求1至8任一项所述的人脸运动跟踪方法;
以及对跟踪人脸运动的视频图像进行虚拟场景显示。
10.根据权利要求9所述的增强现实方法,其特征在于,还包括:采用基于边缘提取和加权中值滤波的图像变形技术来对所述视频图像进行饰物渲染。
11.根据权利要求9所述的增强现实方法,其特征在于,还包括:采用求解边界泊松方程的方法来对所述视频图像进行饰物渲染。
12.根据权利要求9至11任一项所述的方法,其特征在于,所述虚拟场景显示包括:在所述视频图像的人脸前绘制眼镜。
13.根据权利要求9至11任一项所述的方法,其特征在于,所述虚拟场景显示包括:在所述视频图像的人头顶部绘制帽子。
一种人脸运动跟踪方法和系统以及一种增强现实方法\n技术领域\n[0001] 本发明涉及数字视频处理领域,具体的说,涉及视频中运动跟踪领域。\n背景技术\n[0002] 近年来,人脸运动跟踪技术得到了很大的发展,在电视电话会议、远程教学、监视与监控等场合都需要对特定人脸目标进行实时跟踪、分析和传递。可视电话、视频会议、基于内容的压缩与检索、身份鉴别、人机智能交互等许多应用都与人脸跟踪紧密相关。但是,现有的人脸跟踪技术却不尽人意,在人运动很快时,往往因为人脸特征点的丢失,造成跟踪失败。尤其对于增强现实(AR)技术领域,由于跟踪失败将不可避免地导致饰物渲染和虚拟场景显示的失败,因此能够实时准确跟踪人的头部运动对该领域更加重要。\n[0003] 增强现实技术是指将计算机虚拟生成的信息,映射到真实世界的物理环境上,展现出一个虚拟与现实混合叠加的增强情景的技术,例如用手机终端跟踪分析人脸并生成有趣的动画的技术。近年来,随着移动终端设备计算能力的提升、多媒体性能的增强、各种感应模块的集成使用,将AR技术借助移动互联网络应用到移动智能终端上,即AR技术的移动化成为新兴的研究热点,主要是研究面向移动智能终端的增强现实关键技术,利用移动终端设备的摄像头、GPS、感应器等丰富功能,利用移动互联网络的移动、广覆盖、实时在线等特性,研发面向移动智能终端的增强现实系统化技术架构解决方案,通过示范应用形成移动互联网上新的增值业务、信息服务模式,推动产业发展。\n[0004] 由于人脸跟踪和增强现实在移动平台上的广泛应用,本领域现有很多研究和专利。其中完全沉浸(Total-Immersion)公司在iOS平台发布的应用“魔镜”可以检测人脸的特征点位置和人脸朝向,并给人戴上虚拟的帽子和眼镜。这主要通过如下两个步骤实现:\n首先直接采用主动形状模型、主动表观模型等方法获得2D人脸表面特征点或通过Haar特征获得的2D人脸表面特征点;然后用基于3D人脸特征点模型的方法去估计人脸的位姿,该方法先要计算模型中3D人脸特征点与2D人脸表面特征点的对应关系,再通过射影几何的方法计算3D人脸朝向。然而,随着头部的运动,“魔镜”中人脸表面特征点可能会丢失,这种情况下再用基于模型匹配的方法就很可能使匹配丢失,产生图1所示的情况。\n发明内容\n[0005] 为解决上述技术问题,本发明目的在于提供一种在实时跟踪头部运动过程中人脸表面特征点不会丢失的人脸运动跟踪方法和系统以及采用该方法的增强现实方法。\n[0006] 为了实现上述目的,根据本发明一个方面,提供了一种人脸运动跟踪方法,包括:\n[0007] 1)提取视频图像的人脸特征点和人脸轮廓特征;\n[0008] 2)确定所述人脸特征点的个数;\n[0009] 3)对于所述人脸特征点的个数是大于预设阈值的情况,利用所述人脸特征点以及\n3维模型对视频图像中的人脸进行运动跟踪,对于所述人脸特征点的个数小于或等于预设阈值的情况,利用所述人脸轮廓特征进行运动跟踪。\n[0010] 根据本发明另一方面,还提供了一种人脸运动跟踪系统,其包括:\n[0011] 特征提取模块,用于提取视频图像的人脸特征点和人脸轮廓特征;\n[0012] 特征确定模块,用于确定所述人脸特征点的个数;\n[0013] 跟踪模块,用于对于所述人脸特征点的个数是大于预设阈值的情况,利用所述人脸特征点以及3维模型对视频图像中的人脸进行运动跟踪,对于所述人脸特征点的个数小于或等于预设阈值的情况,利用所述人脸轮廓特征进行运动跟踪。\n[0014] 根据本发明又一方面,还提供了一种包括上述人脸运动跟踪方法的增强现实方法。\n[0015] 本发明的优点在于,能够准确跟踪头部运动而避免丢失所确定的人脸特征点;在实时跟踪用户的面部特征和头部运动时,通信网络只需传输少量脸部运动数据,适用于多种手机平台,对摄像头、内存等硬件条件要求不高,因此可应用到视频通话交互中以提高通话的趣味性和交互性。\n附图说明\n[0016] 图1是完全沉浸公司开发的“魔镜”在估计位姿时丢失人脸特征点的示意图;\n[0017] 图2示出了根据本发明优选实施例的人脸跟踪方法流程图;\n[0018] 图3a和图3b分别是原始采集图像和滤波后图像;\n[0019] 图4a中示出了不同光照下的人脸图像,图4b中示出了去除光照影响后的人脸图像;\n[0020] 图5示出了多种类哈尔特征;\n[0021] 图6示出了根据本发明优选实施例的人脸特征点确定流程示意图;\n[0022] 图7示出了主动形状模型特征点的示例;\n[0023] 图8示出了利用射线投影法获取人脸轮廓点的示意图;\n[0024] 图9示出了Candide-3模型;\n[0025] 图10示出了同一个人在不同位姿下脸部边缘的显著差异示意图;\n[0026] 图11示出了不同人在相同位姿下脸部边缘的相似性示意图;\n[0027] 图12示出了人脸轮廓信息提取示意图;\n[0028] 图13示出了饰物图像的边缘处理示意图;\n[0029] 图14是根据本发明一个实施例渲染虚拟场景后的人脸图像。\n具体实施方式\n[0030] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的增强现实方法和系统进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。\n[0031] 人脸运动跟踪主要用于跟踪图像或视频中人脸相对图像平面的三维的位置和朝向,并估计出近似的三维角度,例如估计抬头的仰角等。本发明中,根据所提取的人脸特征点利用3D特征点模型和人脸轮廓回归相结合的方法估计人脸位姿。根据本发明的一个优选实施例,如图2所示,本发明的人脸运动跟踪方法主要包括人脸特征检测和运动跟踪两部分,具体过程如下:\n[0032] 人脸特征检测用于从输入图像中提取人脸表面的特征点以用于人脸运动跟踪。人脸特征检测主要包括图像预处理、确定特征点和人脸轮廓特征提取。\n[0033] 1)首先,对图像进行预处理。在本优选实施例中,具体地,采用高斯滤波器对图像进行滤波,去除图像中的噪声,图3a和图3b分别示出了原始采集图像和滤波后的图像;采用商图像技术除去高亮光照对图像的影响,图4a中示出了不同光照下的人脸图像,图4b中示出了去除光照影响后的人脸图像。\n[0034] 2)然后,在视频图像中确定人脸的特征点。\n[0035] 对经过预处理的图像进行特征提取。根据本发明的一个优选实施例,特征为类哈尔(Haar-like)特征。类哈尔特征描述了图像中相邻矩形块的像素差异,图5中示出了几种不同的类哈尔特征。\n[0036] 对于图5中黑色区域和白色区域面积相同类哈尔特征,用公式表示如下:\n[0037] \n[0038] 式子中,output表示该类哈尔特征的输出,brec(j)和wrec(j)分别表示类哈尔特征的不同类型矩形内像素,例如图5中所示的黑色矩形和白色矩形,n表示上述矩形中包含的像素数目。优选地,用积分图像的方式存储图像,这样,类哈尔特征的输出可以用简单的一次减法来表示,计算速度快。实际应用中,一幅图像往往采用成千上万个类哈尔特征来描述。\n[0039] 对于图5中黑色区域和白色区域面积不相同的类哈尔特征,可以用与上述类似的计算方法来提取。\n[0040] 对所提取的特征进行特征匹配,以在视频图像中确定特征点。\n[0041] 采集CMU-PIE、FERET和MIT-CBCL等公开人脸数据库中具有人脸特征点标记的5万张人脸照片,对每张照片提取特征点附近的类哈尔特征来获得训练正例数据集,其中主要特征点包括:四个眼角,两个嘴角,两个鼻端。类似地,在标记号的特征点一定范围外采样获得反例数据集。根据正例和反例数据集训练分类器。\n[0042] 该训练分类器的过程,在样本的脸部特征点处采样一个矩形窗,在矩形窗内使用不同尺度、方位的类Haar特征,最后获得的每个矩形窗的类Haar特征往往有几万维,称之为过定特征。如果把这种特征用于特征分类效果明显是不好的。因为,一方面,特征维度过高会使模型更复杂,从而导致系统不鲁棒;另一方面,如此高的维度会使训练过程非常耗时。因此,在本优选实施例中采用层进式AdaBoost方法进行分类器训练。这种层进式方法可以有效地选择特征维度,在降维的同时使分类效果更好。AdaBoost属于Boost方法的一种,其主要思想是用多个弱分类器组合成为一个强的分类器,并对它前一个分类器导致的错误分类样例给予更大的重视。在该优选实施例中,使用的弱分类器为如下形式:\n[0043] \n[0044] 其中,x表示一个类哈尔特征,hj(x)表示弱分类器的值,θj表示弱学习算法寻找出的阈值,fj(x)表示特征值。\n[0045] 对于待检测图像,在人脸特征点区域提取类哈尔特征,之后将所提取的类哈尔特征放入分类器来确定属于特征点的维度。与训练过程类似地,从待检测图像中所提取的类哈尔特征可能仍然有上万维。例如,对一个320x240的图像,如果采用20x20的矩形窗模板,每次移动1个像素,尺度缩小因子0.9,则会进行超过30万次分类。为了进一步减少分类数目,基于非人脸里面大量与人脸极其不同的图像特点,仍然采用Adaboost进行级联检测加速。如图6的流程所示,首先采用简单快速的分类器利用非常少量的低维特征来区分所有的候选窗口来排除完全不可能是特征点的像素;仅对通过前面分类器的候选窗口采用更复杂些的分类器利用较高维的特征来进行特征点区分;再次仅对通过的候选窗口,进行进一步区分,来确定最终的特征点。换言之,将少量区分性好的特征构成的简单分类器置于前面若干层,后面层包含更多次的特征对反例进行进一步排除,分类器的层数可以包括但不限于3层。\n[0046] 本发明充分利用了哈尔特征能对不同表情、姿态、光照条件下的人脸图像进行定位的优点,本领域普通技术人员可以理解,除了上述类哈尔特征,还可以采用联合哈尔特征、旋转哈尔特征、离散哈尔特征等进行上述确定人脸特征点的操作。\n[0047] 利用上述方法检测到的人脸特征点可以确定人脸的准确位置。根据本发明一个优选实施例,,再基于上述检测到的人脸特征点使用主动形状模型、主动表观模型或约束局部模型等方法获得人脸表面的更多特征点,以实现更准确地跟踪。如图7中所示,只需要检测出眼角,嘴角等主要特征点的位置便可以通过主动形状模型检测到人脸表面68个特征点的位置。\n[0048] 3)最后,采用图像分割等方法进行人脸轮廓特征提取。根据本发明的一个优选实施例,在该轮廓特征上提取多个轮廓点,例如提取20个轮廓点。具体地,如图8所示,检测人脸的肤色区域,并用射线投影法获得人脸轮廓上的这些点。\n[0049] 关于人脸运动跟踪,如上所述,根据本发明的一个优选实施例,人脸运动跟踪过程主要包括人脸模板跟踪和人脸轮廓跟踪,这主要根据所提取的人脸特征点的个数来决定。\n[0050] 1.人脸模板跟踪\n[0051] 如果所提取的人脸特征点的个数大于预设阈值,则可以用人脸模板跟踪的方法,根据本发明一个优选实施例,该预设阈值为6。\n[0052] 在获得了人脸特征点的2D位置之后,用诸如图9所示的Candide-3模型的3D模型与其建立对应关系。本领域普通技术人员可以理解,除了Candide-3模型还可以采用其他模型,例如,根据经验任意设计的包含特征点的3维模型。\n[0053] 根据本发明优选实施例,采用迭代最近点匹配的方法建立3D模型的2D坐标与人脸特征点的2D位置之间的关系,该方法同时可以对3D的模型进行变形,使其与跟踪的人脸形状更接近。\n[0054] 下面以提取了四个眼角,两个嘴角,两个鼻端8个主要特征点为例来说明该迭代最近点匹配的过程。\n[0055] 根据射影几何理论,4对互相匹配的2D点和3D点可以计算出一个空间平面的位置和朝向,如果用矩阵来表示的话,即:\n[0056] 其中\n[0057] 其中ui表示3D点,xi表示2D点,m表示2D点的对数,其为大于3的自然数,P表示空间平面的单应矩阵。值得注意的是,这里对ui和xi都采用了齐次坐标表示,也就是每个坐标都升一维,最后一维是1。从P矩阵中便可以获得人脸的三维位置和朝向。\n[0058] 2.人脸轮廓跟踪\n[0059] 在头部运动过大时,有可能会出现特征点丢失的情况,对于8个主要特征点的情况,如果已经丢失了2个或2个以上的特征点,这时再用人脸模板跟踪是不能获得准确的脸部位姿的。根据本发明优选实施例,此时将采用边缘轮廓回归技术来进行辅助朝向跟踪。\n边缘特征在图像处理中被认为是最鲁棒的特征之一,由于同一个人在不同位姿下脸部边缘有显著差异,如图10所示,不同人在相同位姿下的脸部边缘有很大的相似性,如图11所示。\n基于该启示,本发明采用人脸边缘轮廓回归的方法来辅助进行人脸位姿估计。也就是说,用人脸轮廓作为特征,学习其与姿态的关系,通过采集大量人脸不同角度的轮廓信息,并将其投影到低维流形空间,建立线性回归器预测新的人脸朝向。根据本发明的一个优选实施例,人脸轮廓跟踪具体过程如下:\n[0060] a)获得多个训练人脸图像的不同位姿下的轮廓特征。具体地,用人脸参数化生成软件Facegen生成100个不同模型,对每个人脸模型获得其在30个不同位姿下的轮廓信息,用20个点拟合人脸的外轮廓,并用这些点的位置作为轮廓的特征,如图12所示。\n[0061] b)对获得的3000组特征用谱聚类聚成30类,取出每一类的聚类中心,对三个轴x,y,z的朝向角度建立三个回归方程,共计建立90个回归方程。\n[0062] c)将人脸特征检测的步骤3)中所提取的20个轮廓点与前面30类特征的中心求距离,距离最小的那个就是该图像属于的类别。将20个轮廓点的特征带入对应的回归方程即可计算出连续的朝向角度来进行人脸跟踪。\n[0063] 对于这种情况中,人脸位置的确定可以基于人脸检测的现有技术。\n[0064] 根据本发明的另一方面,还提供了人脸运动跟踪系统,其包括:\n[0065] 特征提取模块,用于提取视频图像的人脸特征点和人脸轮廓特征;\n[0066] 特征确定模块,用于确定所述人脸特征点的个数;\n[0067] 跟踪模块,用于对于所述人脸特征点的个数是大于预设阈值的情况,利用所述人脸特征点以及3维模型对视频图像中的人脸进行运动跟踪,对于所述人脸特征点的个数小于或等于预设阈值的情况,利用所述人脸轮廓特征进行运动跟踪。\n[0068] 根据本发明的另一方面,还提供了一种增强现实方法,其除了包括上述的人脸运动跟踪方法,还可能包括饰物渲染和虚拟场景显示的步骤,下面对这两个步骤作详细说明。\n[0069] 饰物渲染将三维饰物根据人脸运动跟踪的结果渲染到合适的位置,并负责对饰物进行图像变形,也就是说,首先渲染一定朝向的饰物,再叠加到含有人脸的图像中。在叠加过程中,如何实现无缝叠加是一个比较困难的问题。为了节省计算资源,在本发明的一个实施例中采用了基于边缘提取和加权中值滤波的图像变形技术。具体地:\n[0070] a)如图13所示,提取饰物图像的边缘,用折线段拟合边缘,获得饰物图像边缘的矢量表示;\n[0071] b)将饰物图像添加到人脸图像中,沿着其边缘法线方向进行加权中值滤波。\n[0072] 本领域普通技术人员可以理解,还可以采用求解边界泊松方程的方法来进行饰物渲染,但这种方法比较费时。\n[0073] 虚拟场景显示用于接收关于显示饰物的种类和方式的选择,并根据通话场景进行通话增强。根据本发明的优选实施例,采用OpenGL进行渲染,并优选地,采用合适的渲染软件为其进行硬件加速。\n[0074] 可以于人脸前绘制眼镜,镜片根据式样进行一定程度的透明化,如近视镜100%透明,太阳镜20%透明等。镜片上增加反光效果,并且反光效果可以随着头部运动而变化。\n[0075] 可于头顶部绘制帽子,帽子根据式样需要设计不同的绘制方法。草帽和礼帽等覆盖上1/3,头盔等覆盖整个脸部。帽子设计成可以交互的,比如插一朵花等。\n[0076] 图14示出了根据本发明一个实施例渲染了虚拟场景后的人脸图像。\n[0077] 采用开源3D游戏引擎OpenSceneGraph的一些公开算法为渲染进行加速,如K维树算法,包围盒算法,径向基函数法等。\n[0078] 应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
法律信息
- 2013-05-08
- 2012-03-14
实质审查的生效
IPC(主分类): G06K 9/00
专利申请号: 201110335178.8
申请日: 2011.10.28
- 2012-01-25
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2010-06-30
|
2009-09-23
| | |
2
| |
2011-02-09
|
2010-07-27
| | |
3
| |
2009-01-07
|
2008-08-14
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |