著录项信息
专利名称 | 一种人脸图像的性别标注方法及人脸性别检测方法 |
申请号 | CN201410053395.1 | 申请日期 | 2014-02-17 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2014-05-28 | 公开/公告号 | CN103824053A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/00 | IPC分类号 | G;0;6;K;9;/;0;0;;;G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 北京旷视科技有限公司 | 申请人地址 | 北京市海淀区海淀大街3号1幢1001-011室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京旷视科技有限公司 | 当前权利人 | 北京旷视科技有限公司 |
发明人 | 印奇;曹志敏;姜宇宁 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
本发明公开了一种人脸图像的性别标注方法及人脸性别检测方法。本检测方法为:1)获取人脸图片及其上下文信息;2)对获取的每一待标注人脸图片的性别进行标注:从该图片的上下文信息中提取候选的人名关键词,在网络中搜索返回结果网页;根据该结果网页中性别相关词语的词频确定该图片的性别;分别采用人脸技术平台和人脸属性分析算法检测该图片的性别;综合上述识别结果标注该图片的性别;3)提取每一性别标注图片的特征向量,利用机器学习算法对性别标注后的人脸图片进行训练,生成一人脸性别识别模型;4)对于待检测人脸图像,提取其特征向量利用所述人脸性别识别模型对其性别进行检测。本发明大大提高了人脸图像标注的效率和性别检测效率。
1.一种人脸图像的性别标注方法,其步骤为:
1)从待标注人脸图片的图像来源上下文信息中提取候选的人名关键词;
2)根据所提取的人名关键词在网络中进行搜索,返回结果网页;
3)在该结果网页中计算设定的性别相关词语的出现频率,并根据该出现频率初步确定该待标注人脸图片的性别;其中,设定的性别相关词语包括男性词集和女性词集;男性词集包含他,先生,男,男性,帅哥;女性词集包含她,夫人,女士,女孩;
4)分别采用人脸技术平台和人脸属性分析算法检测该待标注人脸图片的性别;
5)根据步骤3)、4)的识别结果进行加权求和,根据加权求和的结果与设定阈值的比较结果确定该待标注人脸图片的最终性别,标注该待标注人脸图片的性别以用于人脸性别识别模型的训练;其中,根据历史最终性别标注结果,分别统计步骤3)的历史性别识别结果准确率、人脸技术平台的历史性别识别结果准确率和人脸属性分析算法的历史性别识别结果准确率,根据统计结果调整相应的权重。
2.如权利要求1所述的方法,其特征在于根据步骤3)的性别识别结果、人脸技术平台的性别识别结果和人脸属性分析算法的性别识别结果进行加权求和,得到一L值,根据该L值与设定阈值的比较结果确定该待标注人脸图片的最终性别。
3.如权利要求1所述的方法,其特征在于在维基百科和百度百科中搜索候选的人名关键词,得到结果网页。
4.一种人脸图像的人脸性别检测方法,其步骤为:
1)数据自动采集系统从服务器获取人脸图片及其上下文信息;
2)数据自动标注系统对获取的每一待标注人脸图片的性别进行标注;其中标注方法为:
21)从待标注人脸图片的图像来源上下文信息中提取候选的人名关键词;
22)根据所提取的人名关键词在网络中进行搜索,返回结果网页;
23)在该结果网页中计算设定的性别相关词语的出现频率,并根据该出现频率初步确定该待标注人脸图片的性别;其中,设定的性别相关词语包括男性词集和女性词集;男性词集包含他,先生,男,男性,帅哥;女性词集包含她,夫人,女士,女孩;
24)分别采用人脸技术平台和人脸属性分析算法检测该待标注人脸图片的性别;
25)根据步骤23)、24)的识别结果进行加权求和,根据加权求和的结果与设定阈值的比较结果确定该待标注人脸图片的最终性别,标注该待标注人脸图片的性别;其中,根据历史最终性别标注结果,分别统计步骤23)的历史性别识别结果准确率、人脸技术平台的历史性别识别结果准确率和人脸属性分析算法的历史性别识别结果准确率,根据统计结果调整相应的权重;
3)提取每一性别标注图片的特征向量,自动算法训练系统利用机器学习算法定期对性别标注后的人脸图片进行训练,生成一人脸性别识别模型;
4)对于待检测人脸图像,提取其特征向量利用所述人脸性别识别模型对其性别进行检测。
5.如权利要求4所述的方法,其特征在于根据步骤23)的性别识别结果、人脸技术平台的性别识别结果和人脸属性分析算法的性别识别结果进行加权求和,得到一L值,根据该L值与设定阈值的比较结果确定该待标注人脸图片的最终性别。
6.如权利要求4或5所述的方法,其特征在于所述数据自动采集系统从服务器获取人脸图片及其上下文信息的方法为:
71)所述服务器根据输入的人脸关键字搜索相应的人脸图片文件并保存;
72)计算每一人脸图片文件的哈希码、颜色直方图、上下文和标签信息;
73)将每一人脸图片与已存人脸图片进行哈希码和颜色直方图比对,去除重复的图像;
74)使用人脸检测算法模块检测步骤73)处理后保留的每一人脸图片,将人脸位置信息保存到数据库;使用人脸关键点定位算法定位人脸上的关键点信息并保存到数据库。
7.如权利要求4或5所述的方法,其特征在于所述特征向量包括人脸图像的颜色、梯度、边缘、角点特征。
8.如权利要求7所述的方法,其特征在于提取所述特征向量的方法为:首先在人脸图片中检测出人脸位置,然后在人脸区域中提取颜色、梯度、边缘、角点特征数据并将其连接成一个特征向量,得到所述特征向量。
一种人脸图像的性别标注方法及人脸性别检测方法\n技术领域\n[0001] 本发明涉及一种人脸属性特征标注方法,尤其涉及一种人脸图像的性别标注方法及人脸性别检测方法,属于图像识别技术领域。\n背景技术\n[0002] 目前人脸识别检测技术在各领域得到广泛应用,成为当前的一项研究热点,比如申请号201210313721.9、名称“人脸识别方法”的专利文献,申请号201210310643.7、名称“一种人脸识别方法及其系统”的专利文献。\n[0003] 其中,人脸检测识别方法中人脸特征点的提取和标注是一项必不可少的工作,比如申请号201310115471.2、名称“一种人脸自动标注方法及系统”首先从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割,对来自相邻帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点递延给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列。然后通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注;最后,读入每个序列上的人脸,逐个定位,再根据定位结果进行仿射变换,并提取变换后特征点附近固定大小圆形区域内的像素灰度值,作为该人脸特征。\n[0004] 申请号200610096709.1,名称“人脸识别系统中的人脸特征点定位方法”也涉及人脸识别系统中的人脸特征点定位方法,利用图像梯度方向信息的统计模型,通过统计推理的方法确定人脸特征点,包括以下步骤:(1)定义及定位人脸特征点,即利用图像梯度的方向定义和定位候选人的人脸特征点;(2)提取步骤(1)中人脸特征点的特征向量(3)利用一个考虑了人脸特征点的特征及相对关系的统计模型,采用统计推理的方法,标注人脸特征点,从而确定需要的人脸特征点的位置。\n[0005] 现有人脸属性分析技术包含性别,年龄,种族,微笑程度,朝向等一系列技术。这些技术一般共用一套标准的机器学习算法。相关算法通常包含三个环节:1)人脸图像预处理,包含人脸检测和光学校正;2)人脸特征提取,提取相关像素值,边缘位置,角点等;3)机器学习分类器,针对人脸特征进行属性判定,如性别是男性还是女性。传统技术的最大问题在于很强的依赖于训练数据,因而推广性较弱。举例来说,一个在中国人人脸数据上训练出来的性别分类器,在判定白人和黑人性别时往往就会出现较大误差。因而,提升现有人脸属性分析算法最核心的步骤就是如何快速高效的收集及标注海量的人脸图片。\n[0006] 人脸技术属于机器学习范畴,技术和系统都需要经历数据训练过程,即把大量人脸图像和相应的标注一起作为输入给到算法,算法会根据这些训练数据自动学习出相应的模型从而用于实际应用。由于目前的人脸检测方法所要求检测的特征属性信息要求越来越丰富,一般通过有标注的人脸图像利用机器学习算法进行训练得到识别模型,从而对众多未标注的人脸图像进行标注和识别。然而关于人脸性别属性特征的标注方法一直未得到有效解决,如果简单的通过人工方法去逐一筛选标注,非常耗时。\n发明内容\n[0007] 针对现有技术中存在的问题,本发明的目的在于提供一种人脸图像的性别标注方法及人脸性别检测方法。\n[0008] 本发明的技术方案为:\n[0009] 一种人脸图像的性别标注方法,其步骤为:\n[0010] 1)从待标注人脸图片的图像来源上下文信息中提取候选的人名关键词;\n[0011] 2)根据所提取的人名关键词在网络中进行搜索,返回结果网页;\n[0012] 3)在该结果网页中计算设定的性别相关词语的出现频率,并根据该出现频率初步确定该\n[0013] 待标注人脸图片的性别;\n[0014] 4)分别采用人脸技术平台和人脸属性分析算法检测该待标注人脸图片的性别;\n[0015] 5)根据步骤3)、4)的识别结果确定该待标注人脸图片的最终性别,标注该待标注人脸\n[0016] 图片的性别。\n[0017] 进一步的,根据步骤3)的性别识别结果、人脸技术平台的性别识别结果和人脸属性分析算法的性别识别结果进行加权求和,得到一L值,根据该L值与设定阈值的比较结果确定该待标注人脸图片的最终性别。\n[0018] 进一步的,根据历史最终性别标注结果,分别统计步骤3)的历史性别识别结果准确率、人脸技术平台的历史性别识别结果准确率和人脸属性分析算法的历史性别识别结果准确率,根据统计结果调整相应的权重。\n[0019] 进一步的,在维基百科和百度百科中搜索候选的人名关键词,得到结果网页。\n[0020] 一种人脸图像的人脸性别检测方法,其步骤为:\n[0021] 1)数据自动采集系统从服务器获取人脸图片及其上下文信息;\n[0022] 2)数据自动标注系统对获取的每一待标注人脸图片的性别进行标注;其中标注方法为:\n[0023] 21)从待标注人脸图片的图像来源上下文信息中提取候选的人名关键词;\n[0024] 22)根据所提取的人名关键词在网络中进行搜索,返回结果网页;\n[0025] 23)在该结果网页中计算设定的性别相关词语的出现频率,并根据该出现频率初步确定该待标注人脸图片的性别;\n[0026] 24)分别采用人脸技术平台和人脸属性分析算法检测该待标注人脸图片的性别;\n[0027] 25)根据步骤23)、24)的识别结果确定该待标注人脸图片的最终性别,标注该待标注人脸图片的性别;\n[0028] 3)提取每一性别标注图片的特征向量,自动算法训练系统利用机器学习算法定期对性别标注后的人脸图片进行训练,生成一人脸性别识别模型;\n[0029] 4)对于待检测人脸图像,提取其特征向量利用所述人脸性别识别模型对其性别进行检测。\n[0030] 根据步骤23)的性别识别结果、人脸技术平台的性别识别结果和人脸属性分析算法的性别识别结果进行加权求和,得到一L值,根据该L值与设定阈值的比较结果确定该待标注人脸图片的最终性别。\n[0031] 进一步的,所述数据自动采集系统从服务器获取人脸图片及其上下文信息的方法为:\n[0032] 71)所述服务器根据输入的人脸关键字搜索相应的人脸图片文件并保存;\n[0033] 72)计算每一人脸图片文件的哈希码、颜色直方图、上下文和标签信息;\n[0034] 73)将每一人脸图片与已存人脸图片进行哈希码和颜色直方图比对,去除重复的图像;\n[0035] 74)使用人脸检测算法模块检测步骤73)处理后保留的每一人脸图片,将人脸位置信息保存到数据库;使用人脸关键点定位算法定位人脸上的关键点信息并保存到数据库。\n[0036] 进一步的,所述特征向量包括人脸图像的颜色、梯度、边缘、角点特征。\n[0037] 进一步的,提取所述特征向量的方法为:首先在人脸图片中检测出人脸位置,然后在人脸区域中提取颜色、梯度、边缘、角点特征数据并将其连接成一个特征向量,得到所述特征向量。\n[0038] 本发明检测系统如图1所示,其检测方法包含如下步骤:\n[0039] 1)数据自动采集系统,自动从搜索引擎,社交网络,和拍照相册类应用后台服务器不断挖掘学习算法所需要的人脸数据和相关上下文信息;\n[0040] 2)数据自动标注系统,通过少量人工干预,自动过滤采集数据中的噪声,并利用上下文信息自动挖掘学习算法所需要的标注信息;\n[0041] 3)自动算法训练系统,在获得了自动挖掘出的人脸数据和标注信息,该系统定期自动的将数据送入算法学习系统进行算法训练,待训练完成后自动构建可执行算法模块;\n[0042] 4)3)中所得到的最新的算法模块会循环进入1)的子系统,从而帮助更好地挖掘人脸算法相关数据。\n[0043] 与现有技术相比,本发明的积极效果为:\n[0044] 本发明可以实现对人脸图像性别特征进行自动标注,大大提高了人脸图像标注的效率;本发明的检测识别方法可以帮助各项人脸技术的自动学习和更新,同时可以高效的定制化特殊场景的各项人脸技术(如适合互联网女生自拍照片的人脸检测器)。\n附图说明\n[0045] 图1.总体系统示意图;\n[0046] 图2.数据自动采集方法示意图;\n[0047] 图3.数据自动标注方法示意图;\n[0048] 图4.自动算法训练示意图。\n具体实施方式\n[0049] 下面结合附图对本发明的技术进行进一步详细描述。\n[0050] 1)数据自动采集系统(如图2所示)\n[0051] 提升人脸技术各个技术环节算法性能的一个关键条件是获得较高质量的大规模人脸数据。传统方法是人工搭建采集环境,组织志愿者采集人脸图像,人工标注采集的人脸数据,比如人脸的图像位置,人脸关键点的图像坐标,人脸的性别,年龄等等。传统方法采集耗时,采集到的数据也非常单调,比如都是在一个地区的,或者某个年龄段的,某种光照条件下,某种人脸姿态的图像数据,其多样性的缺乏无法满足高性能的人脸技术的算法训练要求。搜索引擎和互联网的出现提供了大数据挖掘和利用的可能性,社交网络上大量的人脸图像数据提供了算法训练的丰富来源。同时,各种人脸相关的拍照/相册类产品后台积累了大量人脸图像数据,如何利用这些数据提升算法性能也是一个目前有待研究的问题。\n[0052] 针对上述问题,本方法使用如下步骤自动化的采集挖掘人脸数据和上下文信息:\n[0053] 1.系统在搜索引擎上搜索人脸相关的关键字,关键字库由用户录入,比如“人脸“,”仰望“等等。\n[0054] 2.系统自动下载搜索引擎提供的结果图像文件,保存到一个临时文件系统中。\n[0055] 3.计算步骤2中下载的图像文件的哈希码(例如使用MD5算法)和颜色直方图数据和上下文和标签信息(如数据来源网站,时间戳,上下文关键字等),存入数据库,并建立索引。\n[0056] 4.对步骤3中得到的数据进行去重处理:每一张图片都要和数据库中的已经入库的图片进行哈希码和颜色直方图比对,去除重复的图像。\n[0057] 5.将步骤4中筛选后剩下的图片保存入一个持续的分布式文件系统。\n[0058] 6.使用人脸检测算法模块检测步骤5中保存的图像中的人脸,将人脸位置信息保存到数据库;使用人脸关键点定位算法模块定位人脸上的关键点信息并保存到数据库;使用人脸属性分析模块分析人脸的各种属性,例如年龄,种族,性别,表情等等,并保存到数据库。\n[0059] 7.最终该系统产生一个存储了图像文件数据的分布式文件系统和一个保存有各种人脸和图像元信息的分布式数据库。\n[0060] 2)数据自动标注系统(如图3所示)\n[0061] 1.对于采集系统中产生的人脸图片,使用文本分析技术分析图像来源中的上下文信息。提取候选的人名关键词。\n[0062] 2.在维基百科和百度百科中自动搜索候选的人名关键词,得到结果网页。\n[0063] 3.在结果网页中分析与设定的性别相关词语的出现频率。其中我们首先定义男性和女性的两个词汇集合。男性词集包含他,先生,男,男性,帅哥等;女性词集包含她,夫人,女士,女孩等。然后我们会统计出现的次数N{男性}和N{女性}。然后性别标注=max{N{男性},N{女性}};\n[0064] 4.自动上传图片到多个开放的第三方人脸技术API平台(参考http://www.skybiometry.com/Demo;http://www.lambdal.com/),取得性别分析结果。\n[0065] 5.从数据库中读取采集系统步骤6中存入的性别分析结果。\n[0066] 6.综合3,4和5的结果,训练一个基于文本分析和API调用结果的机器学习算法模块自动给出该人脸图片的性别标注。\n[0067] 步骤3,4,5提供了对于人脸图片的三个信息源,但是如果单独使用这些信息源作为性别标注的结果可能会带来很多的标注错误。因而,根据步骤3的性别识别结果、人脸技术平台的性别识别结果和人脸属性分析算法的性别识别结果进行加权求和,得到一L值,根据该L值与设定阈值的比较结果确定该待标注人脸图片的最终性别;比如如果该L值大于设定阈值则该待标注人脸图片的最终性别为男性,否则为女性。对于每个信息源的性别识别结果,它在之前测试中准确度越高,它对应的权重系数就相应越高。\n[0068] 实验表明,本方法可以得到极为精准的人脸性别标注数据。性能结果见表1。\n[0069] 表1标注性能对比表\n[0070]\n[0071] 3)自动算法训练系统(如图4所示)\n[0072] 在获得了采集系统中产生的人脸图像和标注系统中产生的人脸标注数据后,本系统提取每一性别标注图片的特征向量,自动算法训练系统利用机器学习算法定期对性别标注后的人脸图片进行训练,生成一人脸性别识别模型;然后将符合筛选条件的数据导入算法训练系统从而检测新输入人脸图像的性别。其具体步骤如下:\n[0073] 1.用户定期根据需求将需要训练的人脸性别算法模块,数据量和筛选条件(比如图像均来源于2013年的互联网相册应用)录入一个任务队列数据库。\n[0074] 2.自动算法训练系统定时从任务队列数据库中读取任务。\n[0075] 3.系统根据任务的筛选条件筛选出符合数据量的人脸图像和标注数据。\n[0076] 4.系统将3中的图像和数据根据任务中的目标算法规格化成该算法训练所需要的存储格式。\n[0077] 5.系统将4中的规格化后的数据上传到学习训练服务器进行训练,生成一人脸性别识别模型;对于待检测人脸图像,提取其特征向量;然后利用所述人脸性别识别模型对其性别进行检测,识别出其性别。\n[0078] 利用我们全新标注方法获取的海量人脸数据以及对应的属性信息(性别,年龄,种族,表情等),我们将每对人脸图片和相应标注作为输入输进我们的属性训练系统中:我们会从每张人脸图片中检测出人脸位置,然后在人脸区域中提取颜色,梯度,边缘,角点等特征,然后将相应特征连接成一个特征向量,输进我们的机器学习分类器中,然后会自动学出新的属性分类器。依赖于我们的海量数据和标注,我们训练出来的人脸属性分类方法性能稳定推广性强,且可被应用到采集系统步骤6中进一步提供我们自动标注系统的精确度。\n[0079] 本发明描述的基于大数据的自适应人脸机器学习算法训练系统可以用于人脸技术的各个模块,包含但不局限于人脸检测,人脸关键点定位,人脸属性分性(性别,年龄,种族,表情等),和人脸识别特征提取。
法律信息
- 2018-02-02
- 2014-06-25
实质审查的生效
IPC(主分类): G06K 9/00
专利申请号: 201410053395.1
申请日: 2014.02.17
- 2014-05-28
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2011-05-11
|
2009-10-30
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |