著录项信息
专利名称 | 识别人眼注视与否的方法和装置及其应用 |
申请号 | CN02131191.9 | 申请日期 | 2002-10-17 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2003-06-11 | 公开/公告号 | CN1423228 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | 暂无 | IPC分类号 | 暂无查看分类表>
|
申请人 | 南开大学 | 申请人地址 | 天津市卫津路***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 南开大学 | 当前权利人 | 南开大学 |
发明人 | 张延炘;王勇;袁景和 |
代理机构 | 天津市学苑有限责任专利代理事务所 | 代理人 | 赵尊生;刘志国 |
摘要
本发明涉及机器视觉与自动控制技术,特别是识别人眼注视与否的装置和方法及其在智能控制中的应用。本发明包括由摄像头、图像接口和处理器所构成的硬件设备,定时循环图像采集与人眼注视与否识别,以及将人眼注视用作控制指令或辅助信息的非接触智能控制技术。本发明可以用于家用电器、游戏机、医护仪器、智能机器人以及某些特需者的非接触控制装置,应用注视方法开启和关闭空调等简单电器,“唤醒”处于待命状态的机器人或计算机,对驾驶员视线偏离的安全提醒,也可在基于语音或手势的非接触智能控制技术中加入本技术,用于判别其语音或手势信号是否是用户发出的有意控制指令等,从而使机器对人的非接触控制的响应更加主动、友好和可靠。
1、一种识别人眼注视与否的方法,其特征在于它包括下述步骤:
(1)运动和场景中是否有人的判定:
用时间差分法作运动识别:首先选取固定的背景图像,每隔一定时间采集一幅新图 像和背景图像相减,由差值图像判定是否有运动物体在场景中出现,有运动物体进入场 景,即分割出运动物体图像,开始进一步处理,采用前馈型神经网络对提取出的运动图 像进行肤色检测,当发现有与人肤色相同的物体并满足一定的尺寸大小条件时,就认为 有人进入场景,开始下一步处理;否则,从重新开始作下一轮运动检测;
所述的神经网络结构为4-3-1,其中输入层的4个节点中的3个分别是象点的红、绿、 兰分量,第4个节点为偏置输入;隐含层取3个神经元是经过反复试验而确定的;输出 层的神经元当输入为肤色时输出+1,非肤色输入时则输出-1;此神经网络采用BP学习算 法进行训练,训练样本取自不同人的肤色在日光灯、白炽灯、太阳顺光和逆光四种情况 下的实测肤色和非肤色彩色信号;
(2)人脸定位和分割:
在检测出来的具有与人肤色相同的运动图像中,用山峰算法设计的步骤进行肤色图 像的填充和分割,并运用人脸的几何特征从其中分别出人脸图像;
(3)双眼定位与鼻子定位:
对分割出的人脸图像采用分区阈值进行二值化;由于人眼及鼻子处的黑色象素较多, 利用逐行与逐列扫描再加上先验知识的方法可以确定出双眼及鼻子的位置,并分割出包 含双眼与鼻子的图像窗口;
(4)与注视与否有关的面部几何特征参数提取:
面部几何特征参数包括:人脸图像平面上鼻子的中心、左右眼睛中心和眼球中心; 对分割出的眼睛窗口采用分区动态阈值法重新进行二值化,用矩形框匹配法确定眼睛的 中心位置,再用模板匹配法或山峰算法确定眼球中心位置,用眼球中心减去眼睛中心可 确定眼球相对于眼睛的位置偏移;同样用分区动态阈值法对鼻子窗口进行二值化,用模 板匹配法确定鼻子的中心位置;假定B和C分别为图像平面上的左右眼睛中心,A为鼻子 的中心,则ABC即为图像平面;B和E分别表示人脸平面上的左右眼睛中心。假定人脸平 面与图像平面相交的直线为鼻子中心与左眼中心的连线AB,ED为E至AB的垂直线,则 ∠EDC即为人脸平面和图像平面的夹角Φ;这里,人脸平面上右眼的中心位置E是根据几 何关系假定的,它可以通过图像平面上两眼的中心B和C以及它们与鼻子中心A连线的 夹角θ来确定;夹角Φ和图像平面上已知的直线AB和AC以及他们的夹角θ之间的关系 式为:
(5)基于面部几何特征参数的人工神经网络注视与否的识别:
所谓注视与否的识别就是判别双眼眼球是否注视摄像机镜头,建立两层前馈型神经 网络,其结构为4-4-1,用上面计算出的两个眼球相对于眼睛的位置偏移量、人脸平面和 图像平面之间的夹角正弦sinΦ参数作为输入变量,第4个输入为偏置,通过对有关人已 知的实际注视和非注视图像样本的学习,执行神经网络肤色、人脸和注视判别软件设计 的步骤,用BP算法和所得到的注视参数对神经网络进行训练,可以确定该神经网络的权 重参数,训练完成后的神经网络即可用于判别人眼的注视与否,并输出判别结果。
2、一种识别人眼注视与否的装置,其特征在于包括:
图像获取装置,用于采集场景图像;所述的图像获取装置是摄像机或图象传感器;
图像存储装置,用于存储采集场景图像的图像信息,所述的图像存储装置是存储 器;
图像识别装置,用于识别出实时获取的图像信息中满足预定条件的图像信息;及
图像处理装置,用于自动判断所采集的场景图像信息中满足预定条件的人眼注视 与否作为控制指令或辅助信息;
所述的图像识别装置和图象处理装置分别是计算机、单板机或DSP芯片。
3、权利要求2所述的识别人眼注视与否的装置的应用,以人眼注视摄像头作为 开启或关闭一般电器的非接触控制指令,用于包括家用电器、游戏机、医护仪器、驾驶 员安全伴侣、智能机器人和某些特需者的非接触控制装置。
4、权利要求2所述的识别人眼注视与否的装置在基于语音或手势的非接触智能 控制技术中的应用,加入人眼注视与否识别方法,以区别其语音或手势信号是否是用 户所发出的有意控制指令。
技术领域
本发明涉及机器视觉与自动控制技术,特别是识别人眼与否的方法和装置 及其在智能控制中的应用。本发明是一种基于视频图像判别人眼注视与否的新技术, 该技术除了单摄象机、处理器和图象接口外不需要额外的辅助设备,识别方法简单快捷, 可以在机器视觉与智能控制的很多应用领域,使机器对人的响应更加主动、友好和确 切。
背景技术
在人和人之间的交互过程中,人类对面部表情,特别是对人眼的注视与否有极灵敏 的判别能力,而机器视觉和人的视觉相比,在这一方面尚处于很低的水平。现有注视与 否的识别,主要依赖装在被试者头上的专门的辅助设备,如红外照明器,反射光检测器 和双位摄像机等。这些装置虽然可以对注视与否有较高的测量精度,但其应用范围却受 到很大的限制。
目前广泛使用的计算机和家用电器控制技术中,如遥控器、键盘、鼠标和触摸屏等, 基本上属于键控接触方式,已证明这是一种病菌传播的重要途径。另外,从“以人为本” 的观点来看,这类器件在使用上还存在许多不够自然和方便的地方。基于视觉和听觉的 智能控制技术,是一种接近于人和人之间自然交互方式的非接触智能控制技术,是智能 控制技术的发展方向,不仅方便、自然、无接触病菌感染,而且对计算机和数字化的推 广和普及也有重要意义。
发明内容
本发明的目的是提供一种识别人眼注视与否的方法和装置及其应用。本发明 在基于机器视觉和听觉的非接触智能机器控制技术中,将注视与否用作机器的启动、关 闭或用户需求信息,使机器对人的需求响应更加主动、友好和确切。这些机器包括市场 规模极其浩大的家用电器、游戏机、医护仪器、驾驶员安全伴侣、智能机器人以及残疾 人和某些特需者的遥控装置等。例如,应用注视方法开动或关闭空调或电扇等电器,“唤 醒”处于待命状态的机器人或处于休眠状态的计算机,也可在以语音或手势智能控制技 术中加入人眼注视与否识别技术,用于判别其语音或手势信号是否是用户发出的有意控 制指令,可大大提高智能控制的可靠性。
本发明识别人眼注视与否的方法包括下述步骤:
在动态场景图像中,采用差分算法和神经网络肤色滤波方法检测到人,然后用神经网 络肤色滤波和山峰算法对人脸进行定位和分割,用分区二值化和象素扫描法定位出眼睛 及鼻子的位置,提取用于确定眼球偏移及人脸取向的几何参数,建立前馈型神经网络模 型,以这些参数对注视信息进行识别,得出注视或不注视的识别结果,以及完成这些技 术要点的过程。
本发明主要包括图像获取装置(摄像头:摄像机或图像传感器)、图像存储装置(存 储器)、图像识别装置和图像处理装置(计算机、单板机或DSP处理芯片)构成; 所述的图像获取装置用于采集场景图像,所述的图像存储装置用于存储采集场景图像 的图像信息,所述的图像识别装置用于检测出实时获取的图像信息中满足预定条件的图 像信息,所述的图象处理装置用于自动判断所采集的场景图像信息是控制指令信息或辅 助信息,特别是人眼注视与否作为控制指令或辅助信息,这些控制指令信息或辅助信息 可用于非接触的电器的控制。
本发明是将硬件设备安装在被控制的电器上,摄像头指向电器用户所在的方向,使 摄像头定时不断地采集场景图像,并由处理软件自动判断所采集的场景图像中是否有人, 如果没有人,则继续循环采集新的场景图像;如果有人,则进一步判断人的眼睛是否在 注视摄像头,并以此作为控制指令或辅助信息用于非接触的电器控制系统。
应用本发明对注视与否的判别进行了检验,结果表明识别受光照影响小,方便可靠, 同时注视与否识别的效果与被识别的人群大小和训练样本的多少有关。当用从对13个 不同人采集的126幅面部图像样本(包含注视样本和非注视样本各63个)进行参数提取 和神经网络的训练时,为了保证对不同人的识别可靠性,训练样本的识别率为98.4%, 然后用127个非训练样本作为测试样本进行检验,正确识别率可达到84.3%。减少被识 别的人群的数目或增多训练样本的数目,都可使正确识别率得到进一步地提高。应当指 出,在上述识别结果中,被误判的都是注视样本,即将注视判成了非注视,非注视样本 全部识别正确。严格注视样本的识别条件,是为了避免当注视与否用作控制信息时,由 于将非注视误判为注视判别而造成误操作,而对注视的误判还可以在下一轮处理中得到 识别,只不过稍有延迟而已。目前,每次注视与否识别所需要的时间为0.1秒左右。处 理时间还可通过硬件速度的提高而进一步减少。
本发明可以用于家用电器、游戏机、医护仪器、驾驶员安全伴侣、智能机器人以及 某些特需者的非接触控制装置,如注视与否的判定可以用于开启和关闭空调等简单电器, “唤醒”处于待命状态的机器人或计算机,对驾驶员视线偏离的安全提醒等。也可在以 语音或手势智能控制技术中加入人眼注视与否识别技术,用于判别语音或手势信号是否 是用户发出的有意控制指令,可大大提高智能控制的可靠性,使机器对人的响应更加主 动、友好和确切。例如将本技术应用于手势识别系统中,其实施效果是:能够区分有意 和无意的手势,减少手势的误判率;还可使手势指令的设计更加自然,不必严格规定采 用那些人们不常用或很难做出的手势。
附图说明
图1:图象处理及注视与否判别技术流程图。
图2:脸与图像平面夹角Φ的几何示意图。A为鼻子的中心,B和E分别为人脸平 面上的左右眼睛中心,ABE组成人脸平面,B和C分别为图像平面上的左右眼睛中心, ABC为图像平面,人脸平面和图像平面的夹角为Φ,AB为两个平面在图像平面上相交的 直线,两眼中心B和C与鼻子中心A的连线的夹角为θ。
图3:判断场景内是否有人的处理流程图。
图4:人脸定位和分割的处理流程图
图5:眼睛与鼻子的开窗定位流程图。
图6:面部参数提取和注视与否识别处理流程图。
具体实施方式
本发明参照附图详细说明如下:
如1所示,本发明的图像采集和处理的工艺流程包括以下5个步骤:
(1)运动识别和场景中是否有人的判定
用时间差分法做运动识别:首先选取相对固定的背景图像,每隔一定时间采集一幅 新图像和背景图像相减,由差值图像可以判定是否有运动物体在场景中出现。一旦发现 有运动物体进入场景,即分割出运动物体图像,开始进一步处理;否则,继续作下一轮 运动识别。如果有运动物体进入场景,则采用前馈型神经网络对提取出的运动图像进行 肤色识别,当发现有与人肤色相同的物体并满足一定的尺寸大小条件时,我们就认为有 人进入场景,开始下一步处理;否则,从重新开始作下一轮运动识别。
以上的图像采集和处理采用人肤色识别的神经网络方法,其结构为4-3-1,其中输入 层的4个节点中的3个分别是象点的红、绿、兰分量,第4个节点为偏置输入;隐含层 取3个神经元是经过反复试验而确定的;输出层的神经元当输入为肤色时输出+1,非肤 色输入时则输出-1。此神经网络采用BP学习算法进行训练,训练样本取自不同人的肤色 在日光灯、白炽灯、太阳顺光和逆光等四种情况下的实测肤色和非肤色彩色信号。训练 后的神经网络对肤色的识别有很好的可靠性和推广性。在照明条件变化较少或用户人数 较少时,训练样本的数目可以减少。具体过程见图3。
(2)人脸定位和分割
在检测出来的具有与人肤色相同的运动图像中,用“山峰算法”进行肤色图像的填 充和分割,并运用人脸的几何特征从其中分别出人脸图像,详见申请人发表的论文[袁景 和等,“一种基于肤色和几何特征的人面部识别方法”,光电子·激光,2002,Vol.13,No.4, pp.394-397.],若在肤色图像中没有人脸则再回到第一步。具体过程见图4。
(3)双眼定位与鼻子定位
对分割出的人脸图像采用分区阈值进行二值化。由于人眼及鼻子处的黑色像素较多, 利用逐行与逐列扫描再加上先验知识的方法可以确定出双眼及鼻子的位置,并分割出包 含双眼与鼻子的图像窗口。具体过程见图5。
(4)与注视与否有关的面部几何特征参数提取
面部几何特征参数包括:人脸图像平面上鼻子的中心、左右眼睛中心和眼球中心。 对分割出的眼睛窗口采用分区阈值法重新进行二值化,用矩形框匹配法确定眼睛的中心 位置,再用模板匹配法(或山峰算法)确定眼球中心位置,用眼球中心减去眼睛中心可 确定眼球相对于眼睛的位置偏移;同样用分区动态阈值法对鼻子窗口进行二值化,用模 板匹配法确定鼻子的中心位置(即鼻尖在图象平面上的投影位置)。假定B和C分别为图 像平面上的左右眼睛中心,A为鼻子的中心,则ABC即为图像平面(见图2)。在图2中, 我们用B和E分别表示人脸平面上的左右眼睛中心。假定人脸平面与图像平面相交的直 线为鼻子中心与左眼中心的连线AB,ED为E至AB的垂直线,则∠EDC即为人脸平面和图 像平面的夹角Φ。这里,人脸平面上右眼的中心位置E是根据几何关系假定的,它可以 通过图像平面上两眼的中心B和C以及它们与鼻子中心A连线的夹角θ来确定。经理论 计算表明,夹角Φ和图像平面上已知的直线AB和AC以及他们的夹角θ之间的关系式为:
(5)基于面部几何特征参数的人工神经网络注视与否的识别
所谓注视与否的识别就是判别双眼眼球是否注视摄像机镜头。本发明中的人工神经 网络注视与否的识别方法,就是建立两层前馈型神经网络,其结构为4-4-1,用上面计 算出的两个眼球相对于眼睛的位置偏移量、人脸平面和图像平面之间的夹角正弦sinΦ等 参数作为输入变量,第4个输入为偏置,通过对有关人已知的实际注视和非注视图像样 本的学习,可以确定该神经网络的权重参数,训练完成后的神经网络即可用于判别人眼 的注视与否,并输出判别结果,具体过程见图6以及申请人发表的论文[王勇等“基于 参数提取的人眼注视与否的判别”,光电子·激光,2001,Vol.12,No.12, pp.1284-1287.],并将此输出信息用于智能控制中。
法律信息
- 2006-12-13
专利权的终止未缴年费专利权终止
专利权的终止未缴年费专利权终止
- 2004-11-03
- 2003-06-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2006-06-08 | 2006-06-08 | | |
2 | | 2005-11-03 | 2005-11-03 | | |