运动图像的人脸特征检测方法

发明专利无效专利

申请号：
CN01120428.1
IPC分类号：--
申请日期：
2001-07-13
申请人：
清华大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	运动图像的人脸特征检测方法
申请号	CN01120428.1	申请日期	2001-07-13
法律状态	权利终止	申报国家	中国
公开/公告日	2001-12-12	公开/公告号	CN1325662
优先权	暂无	优先权号	暂无
主分类号	暂无	IPC分类号	暂无查看分类表>
申请人	清华大学	申请人地址	北京市海淀区清华园变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	清华大学	当前权利人	清华大学
发明人	徐光祐;彭振云
代理机构	北京清亦华知识产权代理事务所	代理人	罗文群

摘要

本发明涉及一种运动图像人脸特征检测方法，首先拍摄人脸图像，构成训练集，构成训练集，对其进行主分量分析、Hough变换等，使其位置和大小和训练集图像中的眼睛相同，然后再投影到上述特征眼子空间，最后，取原始眼睛和其投影之间误差最小的候选眼睛为检测结果，利用积分投影得到嘴角、鼻孔和鼻尖的精确位置。本方法与现有方法相比，检测速度提高了225倍，正确率提高了1.27%。

运动图像的人脸特征检测方法\n技术领域\n：本发明涉及一种运动图像的人脸特征检测方法，属于计算机视觉技术领域。\n背景技术\n：现有的人脸特征检测方法是针对静止图像进行的。在“基于广义对称性的鲁棒人脸特征检测”(《第11届模式识别国际会议论文集》，1992，pp.117-120)一文中，作者D.Reisfeld和Y.Yeshura提出了一种典型的静止图像人脸特征检测方法。该方法的原理是：根据人脸的局部和全局对称性，先定义一种关于对称性的复杂度量(称为对称度)，然后通过能量函数迭代对图像中的每个边缘点求出对称度，对称度最大的点被认为是特征点。该方法可以检测出人脸中的瞳孔和嘴角，正确率约为95％，每幅图的检测时间约3分钟。该方法的主要缺点是：(1)由于没有充分利用人脸的先验知识，因此，运算量大，检测速度慢，不适合于可视通信和无接触计算机操作等实时应用环境；(2)由于只用到了单幅静止图像提供的信息，因此，对检索结果不能验证和纠正；(3)只能检索单幅图像上的特征点，不能用于活动图像。\n发明内容\n：本发明的目的是提出一种运动图像中的人脸检测方法，利用该方法可以在活动图像中快速准确检测人脸上的两个瞳孔、两个嘴角、两个鼻孔和鼻尖的位置，从而克服静止图像人脸检测方法中存在的速度慢、正确率低等缺点。检测出的结果可用于人脸识别、可视通信、图像编码、无接触计算机操作等应用环境。\n本发明提出的运动图像人脸特征检测方法，包括以下各步骤：1、拍摄100-300幅不同性别、年龄、姿态和光照的人脸图像，构成训练集，通过齐次变换，对训练集中图像的眼部几何校准，使得图像中的眼部大小和位置完全一致；2、对上述训练集图像中校准后的眼部进行主分量分析，得到一组称为特征眼的特征向量，构成特征眼子空间；3、对一幅被测人的人脸图像，首先通过Hough变换得到多个候选眼睛，将每一对候选眼睛，先用齐次变换进行几何校准，使其位置和大小和训练集图像中的眼睛相同，然后再投影到上述特征眼子空间，最后，取原始眼睛和其投影之间误差最小的候选眼睛为检测结果；4、被测人的眼睛位置经上述步骤确定后，根据人脸结构特征估计嘴部位置，利用积分投影得到嘴角的精确位置，然后，根据嘴部位置和眼睛位置估计鼻部位置，利用积分投影精确定位鼻孔和鼻尖的位置；5、用上述方法对运动图像中的每帧图像进行特征检测，若出现错检或漏检，则根据运动平滑性约束和平面运动约束，从上一帧图像中的特征点估计出当前帧中的眼睛、鼻子、嘴的位置。\n使用本发明的人脸检测方法，对50个不同姿态、光照、幅面大小、性别、年龄和背景的图像序列进行测试表明，该方法的正确检测率为96.27％，平均检测时间为40秒/序列(每个序列包含50帧图像)。和前述现有方法相比，检测速度提高了225倍，正确率提高了1.27％。\n本发明能实时检测活动图像中的人脸特征，准确率达到96.27％，可用于如下应用领域：(1)人脸识别。人脸识别方法分成基于图像和基于特征的两大类。对于前者，用本发明所用方法得到的特征点可用于校准姿态和引导图像匹配；对于后者，人脸特征可直接用作识别判据。(2)可视通信。可视通信中的最大难题是要解决信道带宽和传输数据量大之间的矛盾。利用本发明中的方法，发送端只需传输少数关键帧图像，对非关键帧图像可以检测出特征点，并只传输这些特征点。接受端可以根据关键帧和特征点恢复非关键帧图像。采用这种方法，可以将现有的图像传输带宽降低几个数量级。(3)活动图像编码。基于内容检索的编码方法正在成为新的活动图像压缩标准(如MPEG-4和MPEG-7)。而人脸特征是重要的图像内容，本发明中提出的方法能作为这类编码方法的有效实现和补充。(4)无接触计算机操作。在很多场合下，比如残疾人操作计算机，核反应控制等，用户不能用键盘或鼠标器操作计算机。这种情况下可以通过跟踪人眼的凝视点来控制计算机。用本发明中的方法实时检测出人脸特征点，根据三维几何模型和校准好的摄象机模型由人脸特征点求得瞳孔在计算机屏幕上的位置，让计算机作出相应的反应。\n附图说明\n：图1是嘴部区域定义。\n图2是鼻部区域定义。\n图3是运动平滑性约束中用到的特征点间距。\n具体实施方式\n：1、几何校准拍摄100-300幅不同性别、年龄、姿态和光照的人脸图像，构成训练集。通过齐次变换，对训练集中图像的眼部几何校准，使得这些图像中的眼部大小和位置完全一致。在下一步中，对被测人脸图像中的眼部也要进行同样的几何校准，使得在训练集图像和测试图像中，眼部的两个瞳孔的相对位置保持不变。\n假设原始图像为I(x，y)，已知两个瞳孔的位置分别为EL(xL，yL)和ER(xR，yR)，瞳孔连线和水平轴的夹角为θ。现在将图像I(x，y)通过齐次变换(式1)变换为I′(x，y)，使得两个瞳孔的位置分别为EL0(xL0，yL0)和ER0(xR0，yR0)。EL0(xL0，yL0)和ER0(xR0，yR0)是固定的瞳孔位置，且yL0＝yR0，即瞳孔连线和水平轴平行。\n[x′，y′]＝STR[x，y，l]T， (1)其中：R、T和S分别为旋转变换、平移变换和尺度变换。\nR=CosθSinθ0Cosθ-Sinθ0001---(2)]]>T=10xl.0-xl.010001---(3)]]>S=d(El.,ER)d(El.0,ER0)0(1-d(El.,ER)d(El.0,ER0))xl.0010---(4)]]>2、特征眼子空间的获取对上述训练集图像中校准后的眼部进行主分量分析，得到一组称为特征眼的特征向量，构成特征眼子空间。\n假设经过校准后，眼部区域大小为w×h＝n。将此区域用n维向量i∈Rn表示。设训练集为{i1，i2...，im}，ik∈Rn，k＝1，2，...，m。\n首先求出训练集的平均图像(即平均眼)：μ=1mΣk=1mik,μ∈R11.---(5)]]>然后计算训练集样本的协方差矩阵：R=1mΣk=1m(ik-μ)(ik-μ)T=AAT,R∈Rn×n,---(6)]]>其中，A＝[i1-μ，i2-μ，...，im-μ]A∈Rnxm. (7)根据奇异值分解(SVD)定理，可以通过矩阵ATA∈Rm×m的正交特征向量组求得AAT∈Rn×n的正交特征向量组(u1，u2，...，ur)。将(u1，u2，...，ur)归一化后得到的正交特征向量组仍表示为(u1，u2，...，ur)，这正是训练集协方差矩阵R的特征向量。\n在实际使用中，只取用使得下式成立的特征向量组(u1，u2，...，u1)，Σi=1I|λi|≥0.95Σi=1r|λi|---(8)]]>在代数意义下，训练集协方差矩阵R完备地表达了训练集的所有信息，而R又可以用(u1，u2，...，u1)完备表示，因此，如果所选训练集包括了所有情况下的人眼图像，则可以认为由(u1，u2，...，u1)构成的子空间能充分描述人眼。也就是说，任何人眼都能用(u1，u2，...，u1)的线性组合表示。我们称(u1，u2，...，u1)为特征眼，称由(u1，u2，...，u1)构成的子空间为特征眼子空间。\n假设幅面为w×h的输入图像为p∈Rn，将其投影到特征眼子空间，即，\np=Σl=1lciui=U(c1,c2,...,c1)T---(9)]]>由于U是正交矩阵，所以，(c1，c2，...，c1)T＝UTp (10)这样，我们得到了p在特征眼子空间中的映像p′=Σi=1lc1u1.]]>p和p′之间差异用其相关值δ(p，p′)描述：δ(p,p′)=E(pp′)-E(p)E(p′)σ(p)σ(p′)---(11)]]>3、眼睛检测对一幅被测人的人脸图像，首先通过得到多个候选眼睛；将每一对候选眼睛，先用齐次变换进行几何校准，使其位置和大小和训练集图像中的眼睛相同，然后再投影到上述特征眼子空间；最后，取原始眼睛和其投影之间误差最小的候选眼睛为检测结果。\n首先，利用Hough变换得到k个候选瞳孔C1，C2，...，Ck，并以C1，C2，...，Ck为节点构造一个完全图G。对图中Ci和Ci之间的边定义一个利润函数B(i，j)如下：B(i,j)=(kiδ(pij,pij′)+k2γ(pij,pij′))*D(i,j)*A(i,j)---(12)]]>其中，k1k2∈[0，1]，k1+k2＝1.0；pij是分别以Ci和Cj为左右瞳孔从图像中分割出的人眼区域；p′ij是pij在特征眼空间的投影；γ(pij，pij′)是相似性和对称性度量；δ(pij，pij′)是眼睛的真实性描述(式11)；D(i，j)和A(i，j)是对两眼间距离和角度的约束。\n满足下列条件的瞳孔对(Cl，Cr)被认为是正确的瞳孔位置：B(l,r)=maxi,j=1,2...kB(i,j)≥k1δ0+k2γ0,---(13)]]>其中，γ0是人眼相似性和对称性阈值，δ0是人眼真实度阈值。如果不存在使式(13)成立的B(l，r)，可将二值化阈值增大，进行自适应调整。\n4、嘴和鼻的检测(1)嘴角检测首先根据人体测量数据由瞳孔位置估计出嘴部区域。如图1所示，如果两个瞳孔的分别为Cl和Cr，则可粗略估计嘴部区域为平行四边形ABCD。在ABCD中作水平和垂直积分投影如下：H(y)=Σx=AD(y)HC(y)I(x,y)---(14)]]>\nV(x)=Σy=AB(x)DC(x)I(x,y)---(15)]]>其中y＝AB(x)和y＝DC(x)分别为直线AB和DC的直线方程；y＝BC(x)和x＝AD(y)分别为直线BC和AD的直线方程。H(y)从原始图像计算得到，V(x)是垂直梯度图和原始图像的组合。\n直方图H(y)上的谷点对应嘴角的垂直位置，直方图V(x)上位于中间值两边的两个谷点对应于嘴角的水平位置，由此可以确定两个嘴角的位置。\n(2)鼻孔和鼻尖检测鼻孔的检测步骤如下：1)根据嘴部区域粗略估计鼻部区域(图2)；2)利用积分投影得到鼻子的基线y＝yn；3)两个鼻孔N1(xn1l，yn)和N3(xn3，yn)是位于基线y＝yn上且满足下列条件的点：S(xn1)=minx∈[x3,xm]S(x)---(16)]]>S(xn1)=minx∈[xm,x4]S(x)---(17)]]>其中，S(x)=Σ(x,y)∈Circle(x,yn,rn)I′(x,y)---(18)]]>5、活动图像中的人脸特征的验证和纠正对运动图像中的每帧图像，先用上述方法检测特征，如果出现错检或漏检的情况，根据运动平滑性约束和平面运动约束，从上一帧图像中的特征点估计出当前帧中的特征点位置。具体方法是：1)从第1帧开始，用上述方法逐帧检测特征，直到连续3帧图像的各特征之间的变化小于给定阈值。这3帧图像被成为基准帧，其特征被认为是正确的。\n2)给定一个基准帧，其相邻帧(目标帧)的特征检测步骤是：(1)根据基准帧特征估计目标帧的特征区域。\n(2)在估计区域内用上述方法检测目标帧的特征。\n(3)对检测结果用运动平滑性约束进行验证。\n平滑性约束的原理是：在两个相邻帧(基准帧和目标帧)之间，由于头部运动幅度和摄象机与人脸的距离相比很小，因此，人脸特征点的变化也应该很小。如图3所不，相邻两帧图像中特征点之间的五个距离的变化应该小于一个阈值，否则，认为检测有误。\n(4)如果检测的特征不符合运动平滑性约束，则用平面运动模型估计出目标帧的人脸特征。\n人脸上的两个瞳孔、两个嘴角和两个鼻孔可近似认为在一个平面上。此平面在两帧之间应符合平面刚体运动约束。假设x＝(x1，x2)是基准帧中的特征点，则可有式(19)和(20)估计出其在目标帧中相应的特征点x′=(x11′,x′2).]]>x′2=a4x1+a5x2+a3a7x1+a8x2+1---(19)]]>x1′=a1x1+a3x2+a3a7x1+a8x2+1---(20)]]>其中，a1，...，a8是平面运动参数。如果已知基准帧和目标帧中4个对应的特征点，则可通过求解下列线性方程组得到a1，...，a8。\nx1x21000-x1x′2-x2x′2000x1x21-x1x′2-x2x′2A=x1′x2′---(21)]]>A＝[a1a2a3a4a5a6a7a8]r(22)按照步骤1-5，可以得到相邻两帧间的6个对应特征点(两个瞳孔，两个嘴角和两个鼻孔)。从这6个点中任取4个，共C64=15]]>中组合，利用式(21)可以得到15组平面参数A1....A15。对于每种组合，用式(19)和(20)可以估计出目标帧中的6个特征点。最佳平面参数Aopt由下式求得：Aopt＝{A1|Min(Err(A1)}，i＝1-15 (23)其中，Err(Ai)是估计误差：Err(Ai)=Max(|xij(Ai)-x0j|),j=1-6---(24)]]>

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供