著录项信息
专利名称 | 人脸图像处理设备和人脸图像处理方法 |
申请号 | CN200810210542.6 | 申请日期 | 2008-08-27 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2009-03-04 | 公开/公告号 | CN101377814 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/00 | IPC分类号 | G;0;6;K;9;/;0;0查看分类表>
|
申请人 | 索尼株式会社 | 申请人地址 | 日本东京都
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 索尼株式会社 | 当前权利人 | 索尼株式会社 |
发明人 | 佐部浩太郎,大久保厚志,横野顺 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 李春晖,李德山 |
摘要
一种人脸图像处理设备和人脸图像处理方法。该设备通过统计学习来选择用于识别个人的特征点和特征。该设备包括:输入装置,输入由任意的人脸检测装置检测到的人脸图像,人脸部分检测装置,从输入的人脸图像中检测若干部位中的人脸部分的位置,人脸姿态估计装置,基于检测到的人脸部分的位置来估计人脸姿态,特征点位置校正装置,基于人脸姿态估计结果来对每个用于识别个人的特征点的位置进行校正,人脸识别装置,通过以下方式来识别个人:在由特征点位置校正装置执行了位置校正之后,计算输入的人脸图像在每个特征点处的特征,并将所述特征对照已记录的人脸的特征来进行检查,其中,与用于识别的特征点相分离地处理用于估计人脸姿态的特征点。
人脸图像处理设备和人脸图像处理方法\n[0001] 相关申请的交叉引用\n[0002] 本发明包含与2007年8月27日向日本专利局递交的日本专利申请JP \n2007-219739相关的主题,该申请的全部内容通过引用合并于此。\n技术领域\n[0003] 本发明涉及一种人脸图像处理设备、一种人脸图像处理方法以及一种计算机程序,其用于识别诸如静止图像、运动图像帧之类的摄影图像中包括的人脸图像。具体地,本发明涉及一种人脸图像处理设备、一种人脸图像处理方法、以及一种计算机程序,其中对照已记录的图像来检查所关注的图像的特征点或特征以识别个人。\n[0004] 更具体地,本发明涉及一种人脸图像处理设备、一种人脸图像处理方法、以及一种计算机程序,其中,通过统计学习来选择用于个人验证的特征点或特征,以允许综合地使用所选择的特征来执行个人验证过程。具体而言,本发明涉及一种人脸图像处理设备、一种人脸图像处理方法、以及一种计算机程序,其中,在已记录的图像和要检查的图像上的特征点彼此精确关联,以便即使在要检查的图像中的姿态变化时也获得高识别性能。\n背景技术\n[0005] 人脸识别技术可广泛用于人机接口应用中,以达到诸如性别识别之类的目的,这种类型的主要应用是不会给用户造成烦扰的个人验证系统。近来,人脸识别被用于数字摄像机的基于对对象的检测或识别的自动操作,包括自动对焦(AF)、自动曝光(AE)、自动视场角设置、以及自动拍摄。\n[0006] 例如,人脸识别系统涉及:人脸检测过程,用于检测包括在输入图像中的人脸图像的位置和大小;人脸部分检测过程,用于从检测到的人脸图像中检测人脸的主要部分的位置;以及人脸识别过程,用于通过将要检查的图像对照已记录的图像进行检查来识别人脸图像(或识别个人),其中所述要检查的图像是通过基于人脸部分的位置来校正人脸图像的位置和旋转而获得的。\n[0007] 人脸识别系统是已知的,其中通过统计学习来选择要被用于识别个人的特征点或特征,并且其中综合地使用所选的特征来执行个人识别过程(例如,参见WO \n2003/019475(专利文献1))。可以使用具有方向选择性和不同的频率分量的多个Gabor滤波来提取人脸图像的特征。\n[0008] 已经揭示了人类的某些视觉细胞表现出对特定方向的选择性,并且Gabor滤波是由类似地具有方向选择性的多个滤波构成的空间滤波。Gabor滤波是使用高斯函数作为窗口且使用基于正弦函数或余弦函数的Gabor函数作为频率响应来在空间上表示的。例如,滤波窗口的大小被固定为24×24像素。当存在五个不同的频率f和八个角度θ时,构成了四十种类型的Gabor滤波。\n[0009] 使用通过切换频率f和角度θ而提供的最多四十种类型的Gabor滤波来执行Gabor滤波计算。由此获得的最多四十组标量值被称为“Gabor jet”。Gabor jet被获得作为在人脸图像数据的水平方向和竖直方向上以预定间隔检测的每个特征提取位置处的局部特征。Gabor jet的特征在于,其相对于特征提取位置的位移或形变的特定程度而言是鲁棒的。\n[0010] 对于已记录的人脸图像而言,预先在该图像的每个特征提取位置处计算Gabor jet。计算在相同的特征提取位置处的、输入的人脸的Gabor jet与已记录的人脸Gabor jet之间的相似度,以获得作为在多个特征提取位置处的相似度集合的相似性向量。然后,通过支持向量机(SVM)来对所述向量进行分类,以识别要检查的图像和已记录的图像。在相关的工业中,支持向量机被认为具有模式识别领域中的最高的通用学习能力。\n[0011] 由于自动地选择可用于识别的大量特征点或特征,因此上述使用统计学习来解决适当地选择用于个人识别的特征点或特征的问题的人脸识别系统是有利的。此外,Gabor滤波相对于特征提取位置的一定程度的位移或形变而言是鲁棒的。因此,可以通过准备包括某些姿态变化的学习样本以使得选择鲁棒的特征,来适当地处理包括在输入图像中的要检查的图像的姿态变化。\n[0012] 然而,当要检查的图像的姿态存在重大变化时,特征点的位移可能变得过大以致不能通过Gabor滤波的鲁棒性来消减。当从图像中识别出人脸(检查出个人)时,将已记录的图像上的点与要检查的图像适当地相关联以实现高识别性能是非常重要的。\n[0013] 为了将具有姿态变化的要检查的图像上的特征点与已记录的图像适当地相关联,已经提出了使用用于伸缩人脸形状的被称为“弹性图”的图结构的方法(例如,参见Laurenz Wiscott、Jean-Marc Fellous、Norbert Kruger和Christoph von der Malsburg的“Face Recognition by Elastic Bunch Graph Matching”(Intelligent Biometric Techniques in Fingerprint and Face Recognition,CRC Press,ISBN0-8493-2055-0,第\n11章,第355-396页,1999年)(非专利文献1))。根据该方法,在图的节点处提供特征点,并预先存储与所述节点相关联的特征。整个图可被移动以找到产生最高特征匹配度的位置,并且所述节点的位置可被局部地移位以调整图的形状。可以对所述图的分支的伸缩量加以约束,因此可以消减由于所关注的人脸的姿态变化而导致的差异或者个人差异,而不会严重偏离人脸的形状。在检查个人时,使用图像的节点处的特征的相似度以及所述节点距离初始位置的位移,来确定要检查的图像是否表示与出现在已记录的图像上的相同的个人。\n[0014] 一种估计人脸的某些部分的位置的方法是使用AAM(主动外观模型)。根据该方法,预先准备各种人和姿态的多个手动标记的部分的点(特征点),并对作为所述部分的位置与所述部分周围的图像的组合的数据执行主分量分析,以学习所述部分的位置及模式的变化。当从输入图像估计出某一部分的位置时,该部分的初始位置被给出,并且连同相同位置周围的已学习的图像一起被映射到部分空间中。已学习的变化具有的匹配度越高,距该部分空间的距离越小。因此,通过精密地改变映射的空间的参数来计算具有较高匹配度的部分的位置,由此可以识别对应的部分的位置。由于施加了统计约束,所以该技术可被称为统计模型,而上述的弹性图是二维几何模型。通常可以通过直接对这样的部分空间上的参数进行比较来执行个人识别。所述参数包括位置和模式变化。\n[0015] 弹性图和AAM是基本上彼此相类似的方法,只除了使用不同的约束之外。然而,这些方法不包括判定在其处的特征要被检查的节点位置的明确步骤。不同的图像中的特征点之间的对应关系越可以被更容易地识别,特征点的个人变化就越小。然而,这与以下事实相矛盾:当个人之间特征变化较显著时,在对个人之间的差异的实际检查中,允许较容易地确定特征。\n[0016] 当从个人识别的观点来考虑特征点之间的对应关系时,在对一个人进行识别的情况下,期望人脸的特定点之间的关系的成功匹配是与诸如人脸姿态的差异之类的在拍摄情况下的差异无关地发生的。然而,在对不同的个人之间进行识别的情况下,对应点之间的差异并不匹配。由于相同的特征点的位置可能因人而异,因此对应点之间的差异是更优选的,这样的差异导致了被假定为使得个人识别变得更容易的模式差异。\n[0017] 根据使用弹性图和AAM的上述方法,同时地估计所关注的人脸的姿态和个人差异。当仅需要检查一个且同一个人的图像中的对应点时,仅仅要考虑该个人的姿态。当要仅通过估计所关注的人脸的姿态来检查对应点时,可以使用该人脸的形状的三维模型。\n[0018] 使用三维模型的人脸识别的示例是利用Blanz等人提出的CG(计算机图形学)技术的方法(例如,参见Volker Blanz和Thomas Vetter的“Face Recognition Based on Fitting a 3D Morphable Model”(IEEE Transaction on Pattern Analysis and Machine Intelligence,第25卷,第9号,2003年)(非专利文献2))。根据该方法,执行主分量分析(PCA)以提供使用与在均匀照明的情况下预先获得的形状数据相关联的大量人脸和肌理(R,G,B)的三维形状数据[x,y,z]的三维统计模型。通过改变该三维模型的参数、姿态参数以及照明参数来合成接近于最终输入的人脸的图像(将CG技术用于该合成)。人脸识别自身是仅使用该三维模型的参数来执行的,因此该识别是在消除人脸姿态和照明的影响的同时执行的。\n[0019] 还存在关于通过以下方式来合成各种人脸的方法的建议:将已记录的正面人脸图像贴在三维人脸模型上,并向该模型添加可被假定为预先发生的各种照明和姿态的变化(例如,参见Akira Inoue、Shizuo Sakamoto 和Atsushi Sato的“Face Matching Using Partial Area Matching and Perturbative Space Method”(Proceedings of JEICE General Conference2003)(非专利文献3))。对所有图像执行主分量分析(PCA)以获得图像可以占据的部分空间(摄动部分空间)。由此获得的输入图像与每个人的部分空间之间的距离被得到以识别该个人。\n[0020] 上述利用三维模型的人脸识别方法中的任一方法的特征在于,其包括对人脸图像的合成,这导致了显著的处理负荷和计算成本。\n发明内容\n[0021] 期望提供具有高性能的一种人脸图像处理设备和一种人脸图像处理方法,其中可以通过统计学习来选择在识别个人时所使用的特征点或特征,以及其中优选地可以综合使用所选特征来执行个人识别过程。\n[0022] 还期望提供具有高性能的一种人脸图像处理设备和一种人脸图像处理方法,其中在已记录的图像和要检查的图像上的特征点可以准确地彼此关联,以实现高识别性能。\n[0023] 本发明考虑了上述需要。根据本发明的实施例,提供了一种人脸图像处理设备,其通过统计学习来选择用于识别个人的特征点和特征,并综合地使用所选的特征点来执行个人识别过程。该设备包括:\n[0024] 输入装置,用于输入由任意的人脸检测装置检测到的人脸图像;\n[0025] 人脸部分检测装置,用于从输入的人脸图像中检测若干部位中的人脸部分的位置;\n[0026] 人脸姿态估计装置,用于基于所检测到的人脸部分的位置来估计人脸姿态;\n[0027] 特征点位置校正装置,用于基于人脸姿态估计装置的人脸姿态估计结果来对每个用于识别个人的特征点的位置进行校正;以及\n[0028] 人脸识别装置,用于通过以下方式来识别个人:在特征点位置校正装置执行了位置校正之后,计算输入的人脸图像在每个特征点处的特征,并将所述特征对照已记录的人脸的特征来进行检查。\n[0029] 根据本发明的又一实施例,提供了一种人脸图像处理设备,其通过统计学习来选择用于识别个人的特征点和特征,并综合地使用所选的特征点来执行个人识别处理,所述设备包括:\n[0030] 输入装置,用于输入由任意的人脸检测装置检测到的人脸图像;\n[0031] 人脸部分检测装置,用于从输入的人脸图像中检测若干部位中的人脸部分的位置;\n[0032] 人脸姿态估计装置,用于基于检测到的人脸部分的位置来估计人脸姿态;\n[0033] 特征点位置校正装置,用于基于所述人脸姿态估计装置的人脸姿态估计结果来对每个用于识别个人的特征点的位置进行校正;以及\n[0034] 人脸识别装置,用于通过以下方式来识别个人:在由所述特征点位置校正装置执行了位置校正之后,计算所述输入的人脸图像在每个特征点处的特征,并将所述特征对照已记录的人脸的特征来进行检查,\n[0035] 其特征在于,与用于识别的特征点相分离地处理用于估计人脸姿态的特征点;\n[0036] 所述人脸部分检测装置检测作为人脸部分的左眼、右眼、鼻尖和嘴中心的坐标(x0,y0)、(x1,y1)、(x2,y2)和(x3,y3);以及\n[0037] 所述人脸姿态估计装置沿转动方向、绕适当的点以通过表达式1获得的角度θ进行旋转校正,以使得双眼被水平调准,并使用表达式2来执行向原点是双眼之间的中点的坐标系统上的位置Xp的另一转换,在表达式2中,cx和cy是双眼之间的中点在所述另一转换之前的坐标,\n[0038] θ=arctan((y1-y0)/(x1-x0)) ...(1)\n[0039] \n[0040] 其中,所述人脸姿态估计装置定义其元素是作为人脸部分的左眼、右眼、鼻尖和嘴中心的三维位置的平均三维人脸模型Xm,并基于关系表达式3来估计所述人脸图像中包括的旋转角度p和y,其中所述关系表达式3指示了:当通过使用旋转矩阵R并将所述旋转矩阵R的比例变换比例值s、来将所述平均三维人脸模型旋转变换所述人脸图像中包括的绕俯仰轴和偏转轴的旋转角度p和y时,所述平均三维人脸模型Xm被转换到在原点是双眼之间的中点的坐标系统上的位置Xp中,\n[0041] Xp=sRXm ...(3)\n[0042] \n[0043] 其中,\n[0044] \n[0045] 人脸识别系统基本上涉及:人脸检测过程,用于检测包括在输入图像中的人脸图像的位置和大小;人脸部分检测过程,用于从所检测到的人脸图像中检测主要的人脸部分的位置;以及人脸识别过程,用于通过将要检查的图像对照已记录的图像进行检查来识别人脸图像(识别个人),其中所述要检查的图像是通过基于人脸部分的位置来校正人脸图像的位置和旋转而获得的。\n[0046] 下述这样的人脸识别系统是已知的,其中通过统计学习来选择要用于识别个人的特征点或特征,以及其中综合地使用所选的特征来执行个人识别过程。由于可用于识别的大量特征点或特征是自动选择的,因此这种系统是有益的。可以使用具有方向选择性和不同的频率分量的多个Gabor滤波来提取人脸图像的特征。由于Gabor滤波相对于特征提取位置的一定程度的位移或变形而言是鲁棒的,因此可以使用包括某些姿态变化在内的学习样本,以使得将会选择鲁棒的特征点。因此,可以适应于包括在输入图像中的要检查的图像的姿态变化。\n[0047] 然而,当要检查的图像的姿态存在显著变化时,特征点的位移可能变得过大以致不能通过Gabor滤波的鲁棒性来消减。当通过图像来识别人脸(检查个人)时,非常重要的是:将在已记录的图像和要检查的图像上的特征点适当地彼此关联,以便实现高识别性能。\n[0048] 在所述情况下,在根据本发明的实施例的人脸识别系统中,使用稳定的与所关注的个人无关的特征点(被定义用于检测人脸部分的特征点)来估计人脸的姿态。然后,使用平均人脸的三维模型来将每个个人的差异显著出现之处的其它特征点(被定义用于识别人脸(个人识别)的特征点)转换为特定姿态中的点。通过对由该转换而获得的位置中的特征进行比较来执行个人识别。\n[0049] 人脸部分识别装置基于已记录在人脸部分检测辞典中的、与稳定的与所关注的个人无关(较不易受到个人差异的影响)的特征点相关联的特征,来检测人脸部分。人脸姿态估计装置基于所检测到的人脸部分的位置来估计人脸姿态。特征点位置校正装置根据所估计的人脸姿态来对从用于个人识别的识别辞典中读取的特征点的位置进行校正。因此,可以以相对于人脸姿态的变化而言鲁棒的方式来执行个人识别。\n[0050] 具体而言,人脸姿态估计装置通过使得人脸图像在屏幕中转动来校正人脸图像的旋转,以使得被检测作为人脸部分的左眼和右眼的位置被水平调准。然后,人脸姿态估计装置基于由人脸部分检测装置检测到的人脸部分的位置与平均三维人脸模型之间的关系,来估计通过使得图像转动而获得的人脸图像中所包括的绕俯仰轴和偏转轴的旋转角度。特征点位置校正装置基于由人脸姿态估计装置所估计的人脸图像绕俯仰轴和偏转轴的旋转角度,来校正用于识别个人的每个特征点的位置。\n[0051] 人脸部分检测装置基于与较不易受到个人之间的个体差异的影响的特征点相关联的特征来检测人脸部分。因此,当不同图像上的特征点彼此相关联时,使用较不易受到个人差异影响的特征点。因此,在已记录的图像和要检查的图像上的特征点可以被适当地彼此关联。同时,人脸识别装置基于显著出现个人差异的特征点处的特征来识别个人。也就是说,由于实际上使用特征因人而异之处的特征点来检查个人差异,因此可以准确地识别个人。\n[0052] 根据本发明的又一实施例,提供了一种人脸图像处理方法,其中通过统计学习来选择用于识别个人的特征点和特征,以及其中综合地使用所选的特征点来执行个人识别过程,所述方法包括以下步骤:\n[0053] 输入由任意的人脸检测装置检测到的人脸图像;\n[0054] 由人脸部分检测装置从输入的人脸图像中检测若干部位中的人脸部分的位置;\n[0055] 由人脸姿态估计装置基于检测到的人脸部分的位置来估计人脸姿态;\n[0056] 由特征点位置校正装置基于人脸姿态估计步骤中的人脸姿态估计结果来对每个用于识别个人的特征点的位置进行校正;以及\n[0057] 由人脸识别装置通过以下方式来识别个人:在特征点位置校正步骤中执行了位置校正之后,计算所述输入的人脸图像在每个特征点处的特征,并将所述特征对照已记录的人脸的特征来进行检查,\n[0058] 其特征在于,与用于识别的特征点相分离地处理用于估计人脸姿态的特征点;\n[0059] 所述人脸部分检测装置检测作为人脸部分的左眼、右眼、鼻尖和嘴中心的坐标(x0,y0)、(x1,y1)、(x2,y2)和(x3,y3);以及\n[0060] 所述人脸姿态估计装置沿转动方向、绕适当的点以通过表达式1获得的角度θ进行旋转校正,以使得双眼被水平调准,并使用表达式2来执行向原点是双眼之间的中点的坐标系统上的位置Xp的另一转换,在表达式2中,cx和cy是双眼之间的中点在所述另一转换之前的坐标,\n[0061] θ=arctan((y1-y0)/(x1-x0)) ...(1)\n[0062] \n[0063] 其中,所述人脸姿态估计装置定义其元素是作为人脸部分的左眼、右眼、鼻尖和嘴的三维位置的平均三维人脸模型Xm,并基于关系表达式3来估计所述人脸图像中包括的旋转角度p和y,其中所述关系表达式3指示了:当通过使用旋转矩阵R并将所述旋转矩阵R的比例变换比例值s、来将所述平均三维人脸模型旋转变换所述人脸图像中包括的绕俯仰轴和偏转轴的旋转角度p和y时,所述平均三维人脸模型Xm被转换到在原点是双眼之间的中点的坐标系统上的位置Xp中,\n[0064] Xp=sRXm ...(3)\n[0065] \n[0066] 其中,\n[0067] \n[0068] 根据本发明的实施例,可以提供下述这样的一种人脸图像处理设备和一种人脸图像处理方法,其由于以下原因而是有利的:可以通过统计学习来选择要用于识别个人的特征点和特征,以及优选地可以综合使用所选的特征来执行个人识别过程。\n[0069] 根据本发明的实施例,可以提供下述这样的一种人脸图形处理设备和一种人脸图像处理方法,其由于以下原因而是有利的:即使在要检查的图像的姿态存在变化时,也可以将在已记录的图像和要检查的图像上的特征点准确地彼此关联,以实现高识别性能。\n[0070] 在使用人脸图像来检查个人时,重要的是如何将在要检查的图像和已记录的图像上的特征点彼此关联。在根据本发明的实施例的人脸图像处理设备中,使用稳定的与所关注的个人无关的特征点来估计人脸的姿态。然后,使用平均人脸的三维模型来将出现显著个人差异之处的其它特征点转换到特定姿态中。对在通过这种转换获得的位置处的特征点进行比较以识别个人。因此,可以以相对于姿态变化而言鲁棒的方式来检查个人。\n[0071] 在根据本发明的实施例的人脸图像处理设备中,当不同图像上的特征点彼此关联时,使用较不易受到个人差异影响的特征点。因此,可以使得在已记录的图像和要检查的图像上的特征点适当地彼此关联。同时,实际上使用特征因人而异之处的特征点来检查个人差异。因此,可以高精度地识别个人。\n[0072] 如同由此所描述的,在根据本发明的实施例的人脸图像处理设备中,与用于识别的特征点相分离地处理用于估计姿态的特征点。因此,可以高性能地执行个人识别,并且优选地可以利用对识别所需的特征的统计选择的优点。\n[0073] 在根据本发明的实施例的人脸图像处理设备中,使用三维平均人脸模型来估计人脸图像的姿态,并且不执行诸如图像合成之类的复杂过程。因此,可以以高速度和低计算成本来执行人脸识别过程。\n[0074] 从下面基于本发明的实施例和附图而提供的、对本发明的更详细的描述中,本发明的其它特征和优点将变得明显。\n附图说明\n[0075] 图1示意性地示出了根据本发明的实施例的人脸识别系统的总体配置;\n[0076] 图2示意性地示出了人脸识别单元13的内部配置;\n[0077] 图3A示出了使用以固定的像素大小构成的高斯函数的滤波窗口;\n[0078] 图3B示出了作为正弦函数或余弦函数的响应函数;\n[0079] 图3C示出了通过将图3A所示的滤波窗口应用于图3B所示的响应函数上而获得的Gabor滤波;\n[0080] 图3D示出了通过将所述滤波窗口沿每个均具有相等的角度偏移量22.5度的八个方向应用于响应函数上而获得的八个Gabor滤波;\n[0081] 图3E示出了通过将所述滤波窗口沿定义了八个方向的角度θ应用于具有五种不同频率f的响应函数上而获得的四十种类型的Gabor滤波;\n[0082] 图4示出了对人脸和人脸部分(四个点,即,双眼的中心、鼻尖以及嘴中心)的检测结果的示例;\n[0083] 图5A示出了在对人脸部分的一般检测期间如何将搜索区上移、下移、左移和右移;\n[0084] 图5B示出了如何基于对人脸姿态角的估计结果而将用于人脸部分检测的搜索区上移、下移、左移和右移;\n[0085] 图6示出了使用其原点是图像的左上像素的左上角的像素边缘坐标表示系统将坐标(x0,y0)、(x1,y1)、......分配给所述图像中的每个人脸部分的特征点,该图示还示出了将人脸图像绕适当点以角度θ旋转以使得双眼被水平调准;\n[0086] 图7A示出了平均人脸部分之间的三维位置关系;\n[0087] 图7B示出了图7A所示的平均人脸部分在其被绕偏转轴旋转45度时所具有的三维位置关系;\n[0088] 图8示出了裁剪人脸区域的过程;\n[0089] 图9A示出了通过统计学习选择的备选特征点的示例(正视图);\n[0090] 图9B示出了通过统计学习选择的备选特征点的示例,其中基于三维平均人脸模型来预先获得每个网格点(用于识别个人的特征点)的z坐标;\n[0091] 图10A示出了从正面摄影的对象的人脸图像中提取的特征点;以及\n[0092] 图10B示出了从通过对图10A所示的同一对象斜对地摄影而获得的人脸图像中提取的特征点,所述特征点被基于根据人脸部分的位置估计的人脸姿态(所估计的俯仰角和转动角)而进行校正。\n具体实施方式\n[0093] 现在将参照附图描述本发明的实施例。\n[0094] 图1示意性地示出了根据本发明的实施例的人脸识别系统的总体配置。该图示中的人脸识别系统10包括人脸检测单元11、人脸部分检测单元12以及人脸识别单元13。\n[0095] 人脸检测单元11从输入图像中检测出人脸,并得到所检测到的人脸的大小和位置。可以使用两像素差方法来执行人脸检测中包括的特征提取。根据该方法,计算可以容易地从具有预定大小的像素范围中提取人脸特征的两个点处的像素之间的亮度差,并且针对多对这样的点而执行该计算。例如,可以将Adaboost算法用于分类器计算。Adaboost是由Freund等人在1996年提出的理论,即,可以通过组合多个“略优于随机分类器的弱分类器”(也称为“弱学习器(weak learner,WL)”)来构造“强分类器”。具体而言,在被认为具有有利于人脸特征提取的亮度差的点对处选择多个像素组合。针对每个所述组合,为所述两个点处的像素的亮度差定义弱假设,并且基于预先统计学习的弱假设来定义最终假设。\n人脸检测器由一组针对两个像素亮度差的弱假设构成,并被称为人脸检测辞典。检测如下所述地进行。在输入图像区域内对具有预定像素大小的人脸检测器进行扫描,并且该检测器在被扫描的每个位置处执行计算,以获得已定义了针对其的弱假设的每对像素之间的亮度差。根据计算结果与所述弱假设之间的一致性程度来对所述计算结果进行评分,并且所有已定义了针对其的弱假设的像素对的这种评分的总和构成了要用于确定所扫描的位置是否是人眼位置的最终假设。每个弱分类器被产生以使得紧挨在所关注的分类器之前产生的弱分类器所弱分类的项被提供权重α。根据每个弱分类器的分类的确定性程度来获得每个弱分类器的可靠性,并且基于该可靠性来进行大多数判定。例如,在已被转让给本申请人的JP-A-2005-157679中也公开了使用两点像素差方法的人脸检测方法。\n[0096] 为了获得用于人脸识别的调准的(正规化的)人脸,使用人脸检测单元11所检测到的人脸的较高分辨率的图像来检测诸如左眼和右眼、鼻尖和嘴中心等的人脸部分的位置。基于所检测到的人眼位置,根据所述通过人脸检测获得的人脸图像的大小和位置而获得具有改善的分辨率的人脸的大小、位置和角度。两点像素差方法可用于人眼位置检测中包括的特征提取。Adaboost算法可用于分类器计算。\n[0097] 人脸识别单元13从已通过人眼位置检测识别出了左眼和右眼在其上的位置的人脸图像中识别出人脸的大小、位置和角度。该人脸被相应地调准为预定像素大小,并被暂时存储在内部的SRAM(未示出)中,以检查人脸是否与已记录的图像相匹配。\n[0098] 人脸识别单元13使用Gabor滤波来提取要用于人脸识别的特征。Gentleboost算法被用于分类器计算。将通过将Gabor滤波应用于已调准的人脸图像而获得的结果与通过将Gabor滤波应用于预先记录的图像而获得的结果进行比较,以得到它们之间的相似度。\n将Gentleboost算法应用于由此得到的相似度,以检查该人脸图像是否与该已记录的图像相匹配。\n[0099] 预先根据大量的人脸数据和样本来学习人脸检测单元11、人脸部分检测单元12和人脸识别单元13中的每个单元所需要的统计数据(具体而言是人脸检测辞典21、人脸部分检测辞典22和识别辞典23)。与稳定的与所关注的个人无关(或者较不容易受到个体变化的影响)的特征点相关联的特征被记录在人脸检测辞典21和人脸部分检测辞典22中。\n相反地,在可能出现显著个体变化的特征点处的特征被记录在人脸识别辞典中。\n[0100] 图2示意性地示出了人脸识别单元3的内部配置。图示的人脸识别单元13包括人脸图像输入部分131、Gabor滤波应用部分132、相关性计算部分133和匹配确定部分134。\n[0101] 人脸图像输入部分131将具有如下分辨率的人脸图像传输至人脸识别单元13的本地存储器(未示出),其中所述分辨率是基于人脸部分检测单元12检测到的、诸如人脸的双眼等的人脸的每个部分的位置而获得的人脸识别所需要的分辨率。根据诸如双眼等的人脸部分的位置信息而获得人脸的大小、位置和角度,以对该人脸图像进行调准。由此产生了人脸识别所需要的人脸图像。也就是说,人脸图像输入部分131对人脸图像进行缩小、移位和旋转,以基于诸如双眼等的人脸部分的位置信息而使用固定的坐标来调准左眼和右眼,由此产生了人脸识别所需要的人脸图像。\n[0102] Gabor滤波应用部分132将Gabor滤波应用于已由图像输入部分131调准的人脸图像。\n[0103] 使用高斯函数作为窗口并使用基于正弦函数或余弦函数的Gabor函数作为频率响应,来空间地表示Gabor滤波。例如,如图3A所示,滤波窗口被固定为24×24像素。当将该滤波窗口应用于如图3B所示的作为特定频率分量的正弦函数或余弦函数的响应函数时,可以产生如图3C所示的Gabor滤波。例如,当将滤波窗口沿每个均具有相等的角度偏移量22.5度的八个方向(即,沿0度、22.5度、45度、67.5度、90度、112.5度、135度和157.5度的方向)应用于作为正弦函数或余弦函数的每个响应函数时,可以产生如图3D所示的八个Gabor滤波。此外,当将滤波窗口类似地沿定义了八个方向的角度θ应用于在从低频带到高频带的范围内变化的五个不同频率f的响应函数上时,总共构成了如图3E所示的四十种类型的Gabor滤波。由以下表达式来给出Gabor滤波(Gabor核K(x,y)):\n[0104] \n[0105] \n[0106] Re(x,y)=cos(2πf(xcosθ+ysinθ))\n[0107] im(x,y)=sin(2πf(xcosθ+ysinθ))\n[0108] x,y=-11.5,-10.5,-9.5,...,-1.5,-0.5,0.5,1.5,...,9.5,10.5,11.5[0109] ...(1)[0110] 参照Gabor滤波的计算,通过对Gabor滤波Gi(x,y)所应用于的像素I(x,y)以及Gabor滤波系数进行卷积,来计算该Gabor滤波Gi(x,y)。Gabor滤波系数可被分离成频率响应是余弦函数的实部Re(x,y)和频率响应是正弦函数的虚部Im(x,y)。对这些部分执行卷积运算,以合成相应的分量。因此,可以获得作为一个标量值的Gabor滤波结果Ji(x,y),其中(x,y)表示在其处提取特征的像素位置,“i”表示所关注的滤波是上述的四十个Gabor滤波中的第i个Gabor滤波。\n[0111] \n[0112] 通过在图像的特征提取位置(x,y)处使用最多四十种类型的Gabor滤波而获得的标量值组{J1,J2,...,J40}(即,最多四十个标量值的组)被称为“Gabor jet”。\n[0113] 校正计算部分133对基于输入图像而计算出的Gabor jet即GS以及已记录的图像的Gabor jet即GR执行正规化的校正计算,以使得要检查的图像与已记录的图像相关联,由此获得所述图像在每个特征提取位置处的相似度。\n[0114] \n[0115] 对在被认为允许容易地提取特征的多个特征提取位置或特征点处具有调准的像素的人脸图像执行正规化的相关性计算,由此获得相似度。作为结果,获得其元素是在所述特征点处提取的正规化的相关性计算结果d0、d1、...的相似度向量D。\n[0116] D=(d0,d1,d2,...) ...(4)\n[0117] 上文陈述了“最多”使用四十种类型的Gabor滤波,该陈述意味着不需要在所有定义的特征点处使用全部的四十种类型的Gabor滤波。要在已提取了相似度的特征提取点处使用的Gabor滤波类型的数量取决于该点的位置。也就是说,Gabor滤波的类型和数量(Gabor jet的元素数量)取决于所关注的位置。\n[0118] 匹配确定部分134基于所获得的输入图像与已记录的图像之间的相似度向量来确定所述图像是否彼此相匹配。在本实施例中,Gentleboost被用于分类器计算。使用以下表达式来执行Gentleboost计算。该表达式中的值a、q和b被预先记录在识别辞典中。\n[0119] y000=a000×(dj000>q000)+b000\n[0120] y001=a001×(dj001>q001)+b001\n[0121] y002=a002×(dj002>q002)+b002\n[0122] … … …\n[0123] y159=a159×(dj159>q159)+b159\n[0124] 0≤j000,j001,j002,…,j159≤81 ...(5)\n[0125] 根据以下判别式来确定输入图像与已记录的图像是否彼此相匹配:\n[0126] 如果((y000+y001+y002+...+y159)>阈值),人脸OK\n[0127] 否则,人脸NG\n[0128] ...(6)\n[0129] 尽管以上描述了使用Gentleboost来确定匹配,但是本发明不必限定于此。例如,可以使用支持向量机来对在相似度向量的边界处的值进行分类,以确定所述图像的匹配。\n[0130] 人脸识别单元13处的处理的步骤可被一般地概括如下。\n[0131] 步骤1:由人脸部分检测单元12所定位和裁剪的人脸图像被传送。\n[0132] 步骤2:从已被统计学习的识别辞典中读取特征点位置和所使用的Gabor滤波的类型(维数)。基于所读取的信息对所述图像执行Gabor滤波计算,以获得滤波输出。\n[0133] 步骤3:从预先记录的个人人脸数据(对已记录的人脸执行Gabor滤波计算的结果的记录)中顺序地读取要检查的个人的数据,并计算所述数据与输入图像的滤波输出之间的相关性。\n[0134] 步骤4:基于由此获得的相关性值使用从统计学习的辞典中读取的判别式函数来执行个人识别。\n[0135] 步骤5:处理返回到步骤2,以将到步骤4之前的步骤重复N次(N等于弱学习器WL的数量)。\n[0136] 步骤6:综合N轮确定的结果以输出最终确定。\n[0137] 如上文所述,本实施例的人脸识别系统10基本上通过统计学习来选择要用于个人识别的特征点或特征,并在确定过程中使用所选的特征点处的特征来综合地执行确定处理。\n[0138] 用于提取特征的Gabor滤波相对于提取特征之处的特征点的一定程度的位移或变形而言是鲁棒的。因此,可以通过在学习样本中包括某些姿态变化以使得将会选择鲁棒的特征点,来适应于输入图像中包括的要检查的图像的姿态变化。\n[0139] 然而,当要检查的图像的姿态存在显著变化时,特征点的位移可能变得过大以致不能通过Gabor滤波的鲁棒性来消减。当人脸被识别时,非常重要的是适当地建立在已记录的图像和要检查的图像上的特征点之间的对应关系,以实现高识别性能。\n[0140] 在所述情况下,在本实施例的人脸识别系统10中,使用稳定的与所关注的个人无关的特征点(被定义用于检测人脸部分的特征点)来估计人脸姿态。然后,使用平均人脸三维模型来将每个个人的差异显著地出现之处的其它特征点(被定义用于人脸识别(个人识别)的特征点)转换为特定姿态中的点。通过对在所述转换之后达到的位置中的特征进行比较来执行个人识别。\n[0141] 人脸部分检测单元12基于已记录在人脸部分检测辞典22中的、与保持稳定而与个人差异无关的特征点(较不易受到个体变化影响的特征点)相关联的特征来检测人脸的部分。当不同图像上的特征点彼此相关联时,使用较不易受到个人变化影响的特征点。因此,可以适当地将在已记录的图像和要检查的图像上的特征点相关联。随后,使用从人脸图像检测到的特征点与人脸的平均三维模型上的相应特征点之间的相关性,来估计人脸姿态。在校正了从识别辞典23读取的特征点的位置之后,执行检查人脸图像的处理。可以以相对于所关注的人脸的姿态变化而言鲁棒的方式来执行个人识别。\n[0142] 在本说明书中将自适应地改变从识别辞典23读取的特征点的坐标(其可能因人不同而显著变化)的操作称为“自适应采样”。\n[0143] 自适应采样包括以下步骤。\n[0144] 步骤11:检测人脸部分。\n[0145] 步骤12:估计人脸姿态。\n[0146] (12-1)在屏幕中转动特征点以校正它们,以使得双眼被水平调准。\n[0147] (12-2)根据人脸部分的标准模型与从输入图像中检测到的人脸部分之间的关系来估计原点在双眼之间的中点处的偏转角和俯仰角。\n[0148] 步骤13:基于所估计的角度和所估计的比例来裁剪人脸区域。\n[0149] (13-1)计算输入图像中的人脸区域的中心和四个角。\n[0150] (13-2)将所述图像绕所述区域的中心旋转。\n[0151] (13-3)经过旋转的图像被切片和调准到预定的像素大小。\n[0152] 步骤14:基于姿态角来校正样本点。\n[0153] (14-1)将所定义的、原点在双眼之间的中点处的样本点(x,y,z)按照列出的轴的顺序绕俯仰轴和偏转轴旋转。\n[0154] 现在将详细描述自适应采样的每个步骤。\n[0155] 对人脸部分的检测\n[0156] 图4示出了对人脸和人脸部分(在图示的示例中是四个部分,即,双眼的中心、鼻尖和嘴中心)的检测结果的示例。可以通过扫描来自图像的所有人脸模式,来执行对人脸的检测。可以通过扫描每个所检测到的人脸区域中的预定区来检测人脸部分,以得到所述人脸部分、即右眼、左眼、鼻尖和嘴中心的模式。\n[0157] 人脸部分检测过程可包括根据以重叠关系的多个人脸检测结果而粗略估计人脸的姿态角的功能。如图5B所示,即使在由于人脸姿态的显著变化而难以检测人脸部分时,姿态角估计功能的使用也使得能够通过根据所估计的人脸的姿态角而使得用于人脸部分检测的搜索区向上、向下、向左和向右移位来稳定地检测人脸部分。当人脸检测单元12所检测到的人脸朝向正向时,对于检测的目的而言,仅仅如图5A所示的一个搜索区通常就是足够的。\n[0158] 对人脸姿态的估计\n[0159] 当完成了对人脸部分的检测时,使用原点是图像的左上像素的左上角的像素边缘坐标表示系统来为每个人脸部分的特征点提供在图像中的坐标(x0,y0)、(x1,y1)、......(参见图6)。沿转动方向绕适当的点以角度θ校正旋转,以使得双眼被水平调准。由如下示出的表达式7给出旋转角度θ。\n[0160] θ=arctan((y1-y0)/(x1-x0)) ...(7)\n[0161] 所述坐标被进一步转换到原点是双眼之间的中点的坐标系统中。由如下示出的表达式8来给出作为结果的坐标,其中Xp表示所述坐标。\n[0162] \n[0163] 其中,(x0,y0)、(x1,y1)、(x2,y2)和(x3,y3)分别表示左眼、右眼、鼻尖和嘴中心的坐标。作为由表达式8给出的坐标转换的结果,对人脸姿态的估计只需要绕俯仰轴和偏转轴的旋转角度p和y、以及用于使得人脸图像的大小适合于已记录的图像(或使之调准)的比例值s。\n[0164] 如图7A所示地(以mm为单位)定义了平均人脸部分之间的三维位置关系,其中如上文所述双眼之间的中点用作原点。在图7A中还定义了人脸部分与用于裁剪人脸的人脸框之间的关系。图7B示出了图7A所示的平均人脸部分在被绕偏转轴旋转45度时所具有的三维位置关系。\n[0165] 现在将描述基于输入图像中的输入人脸部分(特征点)的坐标以及平均人脸部分位置的定义来变换(调准)所述输入图像中的人脸的姿态角和比例的处理的步骤。\n[0166] 步骤21:输入图像中的特征点在双眼已被水平调准的情况下被转换到(如同上文所述的)原点是双眼之间的中点的坐标Xp。\n[0167] 步骤22:由如下所示的矩阵Xm来表示图7A所示的平均人脸模型的特征点的三维位置。下面示出的矩阵Xm的第一至第四列分别对应于右眼、左眼、鼻尖和嘴的三维位置。\n[0168] \n[0169] 步骤23:在图7A所示的平均人脸模型的坐标表示中,绕x轴的旋转被称为俯仰p,绕y轴的旋转被称为偏转y。由以下表达式给出作为这些旋转的结果的、表示对四个特征点即右眼、左眼、鼻尖和嘴的坐标转换的旋转矩阵R。\n[0170] \n[0171] 步骤24:输入图像中的特征点的坐标Xp和平均人脸模型的坐标Xm具有相同的原点,并且绕z轴的转动已经被校正。因此,在应用了比例值s以及偏转和俯仰的旋转转换R时,这些坐标具有由以下表达式表示的关系。\n[0172] Xp=sRXm\n[0173] \n[0174] 这里假设模型点被垂直投影在输入图像上。Xp_x和Xp_y分别表示输入图像中的特征点的x坐标和y坐标。Xm_x、Xm_y和Xm_z分别表示模型的特征点被分解成的x坐标、y坐标和z坐标。\n[0175] 步骤25:表达式11所示的矩阵计算的第二行仅采用绕俯仰轴的旋转p作为参数,并且其因此可以被如下所示地转换:\n[0176] \n[0177] 步骤26:通过使用伪逆矩阵来对表达式12求解而获得下面示出的表达式13。\n[0178] \n[0179] \nT -1 T\n[0180] 表达式13中的(BB) B 可以从表示平均人脸模型的特征点的三维位置的矩阵XmT -1 T\n获得。因此,可以预先在离线过程中使用表达式9来计算(BB) B,以便当在线执行处理时省略逆矩阵计算。\n[0181] 步骤27:基于表达式13的计算结果根据以下所示的表达式14,可以获得人脸图像绕俯仰轴的旋转角度p。\n[0182] p=arctan(ay/ax) ...(14)\n[0183] 步骤28:参照表达式11的第一行,根据以下表达式可以获得人脸图像绕偏转轴的旋转角度y。\n[0184] \n[0185] 步骤29:由于已通过表达式14获得了俯仰角p,因此正如针对表达式13所做的一样,使用伪逆矩阵来对表达式15求解,并获得以下表达式。\n[0186] \n[0187] \n[0188] 步骤30:因此,根据以下表达式可以获得人脸图像绕偏转轴的旋转角度y。\n[0189] y=arctan(by/bx) ...(17)\n[0190] 步骤31:对表达式14和14进行平均,以获得由以下表达式给出的比例值s。\n[0191] \n[0192] 通过参照表达式11的第一行而获得的、用于得到人脸图像绕偏转轴的旋转角度y的表达式15可被如下所示地转换:\n[0193] \n[0194] \n[0195] 其中,\n[0196] \n[0197] \n[0198] \n[0199] 在这种情况下,该用于得到偏转角的表达式可被表示如下。\n[0200] \n[0201] 其中,\n[0202] 表达式20的右侧的(XmXmT)-1Xm可预先(或在离线过程中)根据表达式9而获得。\n因此,根据表达式20,可以在离线过程中省略逆矩阵计算,并且可以使用针对俯仰的旋转矩阵R3p的逆矩阵来导出绕偏转轴的旋转角度y。\n[0203] 对人脸区域的裁剪\n[0204] 当通过人脸姿态估计过程获得了对人脸姿态和比例值s的估计时,计算所关注的人脸区域的中心和四个角。该人脸图像被绕该区域的中心转动,并且该人脸区域被基于比例值s而调准到预定像素大小(例如80×80像素)并被裁剪。\n[0205] 图8示出了裁剪人脸区域的过程。\n[0206] 使用通过人脸姿态估计过程获得的模型以及针对输入坐标的比例值s来定义人脸区域。平均人脸模型上的人脸区域具有169.0的大小,并且该大小乘以比例值s后变成图像中的人脸区域的大小。可以根据所述位置距离平均人脸图像的原点的位置来计算裁剪区域。\n[0207] 由于人脸部分的特征点的坐标Xp已被转动以在水平方向上调准双眼,因此该图像这次被旋转以变成水平的,并且从该图像中裁剪矩形区域。\n[0208] 最终,该图像被调准到预定大小(例如80×80像素)以用于识别。此时,所述比例值也被更新,以允许转换到80×80像素的大小。\n[0209] 图9A示出了通过统计学习选择的备选特征点的示例。以网格的形式在整个人脸中选择多个备选特征点。所述网格点被调准到要用于人脸识别的图像大小。在图示的示例中,97个点被定义为具有80×80像素的人脸图像的特征点,所述点是以被屏蔽的5个像素的间隔来选择的。图9A是所述备选特征点的正视图,并且所述网格点(用于个人识别的特征点)中的每个网格点的z坐标均是预先基于如图9B所示的三维人脸模型而获得的。所述坐标的数据随着用于学习辞典的特征说明一起被保存。\n[0210] 当人脸图像实际被裁剪并被作为要检查的图像而输入以计算在每个特征点处的特征时,通过基于估计的人脸姿态p和y以及估计的比例值s而旋转和缩放从所述辞典读取的所述97个特征点的坐标,来校正所述97个特征点的坐标。\n[0211] 假设Xs表示已记录在人脸识别辞典中的特征点的三维定义的坐标,并且xs表示通过基于人脸姿态p和y以及比例值s而旋转和缩放图像所获得的、经过校正的特征点。那么,所述经过校正的特征点的坐标xs可以通过以下所示的表达式21获得。表达式21的右侧的常量C是所定义的双眼之间的中点的坐标(80/2,80×66.05/169.0)。\n[0212] xs=sRXs+C ...(21)\n[0213] 其中,\n[0214] \n[0215] 当像素实际上被采样时,像素边缘坐标表示被转换为像素中心坐标表示(-0.5)。\n[0216] 图10A示出了从正面摄影的对象的人脸图像提取的特征点。图10B示出了从斜对地摄影的同一对象的人脸图像提取的特征点。根据图10A与图10B之间的比较显而易见的是,在通过对该对象进行斜对地摄影而获得的人脸图像的情况下,从该人脸图像中检测到若干人脸部分的位置。基于所检测到的人脸部分的位置来估计诸如俯仰和转动之类的人脸姿态变化,并且基于所估计的俯仰和转动的角度来校正用于识别该个人的特征点的位置。\n作为结果,可以改进诸如人脸识别之类的后续处理的精确性。\n[0217] 用于统计学习的自适应采样\n[0218] 虽然已经描述了与人脸识别过程相关联的自适应采样方法,但是在学习过程中也期望使用该方法。\n[0219] 识别包括以下步骤:逐一地计算特征以及与其相关联的判别函数,以及进行综合的最终确定。相反地,通过以下步骤来执行学习:预先使用特征的所有维数来计算在所有学习样本中的所有备选特征点处的特征,以及顺序地选择样本中的导致一个人与其它人之间的最优判别结果的特征点和特征。因此,除了学习需要更大的计算量以外,用于学习的过程完全与用于识别的过程相同。\n[0220] 学习通常涉及手动标记的人脸和手动给出的人脸部分位置,而非检测人脸和检测人脸部分。然而,使用人脸和人脸部分的姿态估计和样本点校正是以与用于识别的方式相类似的方式来执行的。\n[0221] 已经参照本发明的特定实施例而详细描述了本发明。然而,对于本领域的技术人员而言,显然可以在不背离本发明的精神的情况下对所述实施例进行修改和替换。\n[0222] 例如,本发明可用于利用人脸识别技术、例如个人验证系统和性别识别的人机接口中,用于自动摄像机操作目的的使用对象识别技术的数字摄像机,以及包括具有数字摄像机的蜂窝电话在内的便携式终端。\n[0223] 以上描述仅仅公开了本发明的示例性方式,并且本说明书的内容不应被视为限定性的。应当根据所附的权利要求来确定本发明的要旨。
法律信息
- 2014-10-22
未缴年费专利权终止
IPC(主分类): G06K 9/00
专利号: ZL 200810210542.6
申请日: 2008.08.27
授权公告日: 2012.12.26
- 2012-12-26
- 2009-04-29
- 2009-03-04
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2006-09-13
|
2006-04-20
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |