著录项信息
专利名称 | 麦克风控制系统及方法 |
申请号 | CN201010262470.7 | 申请日期 | 2010-08-25 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2012-03-14 | 公开/公告号 | CN102378097A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04R29/00 | IPC分类号 | H;0;4;R;2;9;/;0;0;;;H;0;4;N;5;/;2;3;2查看分类表>
|
申请人 | 鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司 | 申请人地址 | 广东省深圳市龙华新区龙观东路83号荣群大厦11楼
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 赛恩倍吉科技顾问(深圳)有限公司,赛恩倍吉科技顾问(深圳)有限公司 | 当前权利人 | 赛恩倍吉科技顾问(深圳)有限公司,赛恩倍吉科技顾问(深圳)有限公司 |
发明人 | 李后贤;李章荣;罗治平 |
代理机构 | 深圳市鼎言知识产权代理有限公司 | 代理人 | 哈达 |
摘要
本发明提供一种麦克风控制系统及方法。该麦克风控制系统包括麦克风、时间飞行(TimeofFlight,TOF)摄像机、制动单元、存储器及处理器。麦克风与制动单元相连接,TOF摄像机、制动单元及存储器分别与处理器相连接。TOF摄像机持续拍摄麦克风前方场景得到场景影像。处理器对场景影像进行分析侦测3D人脸区域,根据存储器预先储存的当麦克风调整到最佳的收音位置时,3D人脸区域在场景影像中所占第一比例、确定3D人脸区域口部位置的第二比例及3D人脸中口部位置在场景影像中的位置信息,控制制动单元自动调整麦克风与用户的距离及麦克风的高度,将麦克风调整到最佳的收音位置,达到最好的收音效果。
麦克风控制系统及方法\n技术领域\n[0001] 本发明涉及一种麦克风控制系统及方法。\n背景技术\n[0002] 麦克风是一种将声音转换成电子信号的能量转换器,其基本原理为当麦克风的声音振膜经过声音的震动以后,将声音震动转变成电子信号,电子信号经过扩大器放大,再送到喇叭就成为原来的声音。\n[0003] 目前,麦克风在使用过程中没有结合影像侦测技术,无法自动侦测使用者的面部及口部位置,并按使用者身高自行调整至最佳收音位置及角度,使用者只能在使用前自行动手调整麦克风的高度与角度位置。然而,大部分的活动流程中总会有多位致词者或表演者,即使活动前已请专业音效师事先设置好麦克风位置,却往往因为每位致词者或表演者的身高不尽相同而导致收音效果不一样。若每位致词者在致词前皆重新调整麦克风高度与角度位置,除了会影响演说情绪及表演质量,也可能导致活动时间拖延而不易管控,另外使用者自行调整后的麦克风收音与扩音效果也不能够达到最佳效果。\n发明内容\n[0004] 鉴于以上内容,有必要提出一种有必要提供一种麦克风控制系统及方法,能够自动调整麦克风高度及与用户的距离,将麦克风调整至最佳收音位置。\n[0005] 一种麦克风控制系统,包括麦克风、时间飞行(Time of Flight,TOF)摄像机、制动单元、存储器及处理器。麦克风与制动单元相连接,TOF摄像机、制动单元及存储器分别与处理器相连接。TOF摄像机持续拍摄麦克风前方场景得到场景影像,处理器对场景影像进行分析侦测3D人脸区域,根据存储器预先储存的当麦克风调整到最佳的收音位置时,3D人脸区域在场景影像中所占第一比例、确定3D人脸区域口部位置的第二比例及3D人脸中口部位置在场景影像中的位置信息,控制制动单元自动调整麦克风与用户的距离及麦克风的高度,将麦克风调整到最佳的收音位置,达到最好的收音效果。\n[0006] 一种麦克风控制方法,该方法包括以下步骤:(a)利用TOF摄像机拍摄麦克风前方的场景,得到场景影像;(b)利用处理器将当前场景影像中各点到镜头的距离转换为像素值储存至当前场景影像的特征矩阵;(c)利用处理器将当前场景影像的特征矩阵中各点的像素值与三维人脸模板中相应特征点的像素值的容许范围进行比较,判断当前场景影像是否存在某一区域、该区域有满足第一预设数目的特征点的像素值落入三维人脸模板中相应特征点的像素值的容许范围,以侦测该场景影像中的三维人脸区域从场景影像中侦测三维人脸区域;(d)利用处理器判断三维人脸区域在场景影像中所占比例是否等于第一预设比例,若不等于第一预设比例,则执行步骤(e)后返回步骤(a),若等于第一预设比例,则执行步骤(f);(e)利用处理器下达第一控制指令至制动单元以调整麦克风与用户的距离;(f)利用处理器根据第二预设比例在三维人脸区域中确定用户的口部位置;及(g)利用处理器判断口部位置是否在场景影像中的预设位置,当口部位置在场景影像中的预设位置时,结束流程,当口部位置不在场景影像中的预设位置时,下达第二控制指令至制动单元以调整麦克风的高度并返回步骤(a)。\n[0007] 相较于现有技术,本发明所提供的麦克风控制系统及方法能够根据使用者面部及口部位置自动调整麦克风的高度及用户的距离,将麦克风调整至最佳收音位置,使得麦克风能够撷取到使用者最清晰的声音。使用者无需以手动方式调整麦克风位置,不仅能够更精确掌控活动流程与时间,也可以让麦克风实时达到最佳的收音效果。\n附图说明\n[0008] 图1是本发明麦克风控制系统较佳实施例的硬件架构图。\n[0009] 图2是图1中麦克风控制系统的两种工作模式示意图。\n[0010] 图3是图1中处理器及存储器的功能模块图。\n[0011] 图4是本发明麦克风控制方法较佳实施例的流程图。\n[0012] 图5是图4中步骤S32的具体流程图。\n[0013] 图6及图7是图1中TOF摄像机拍摄麦克风前方的场景得到的两张场景影像。\n[0014] 图8及图9是判断场景影像用户口部位置的示意图。\n[0015] 图10是图1中麦克风控制系统安装在麦克风支架上的示意图。\n[0016] 主要元件符号说明\n[0017] \n 麦克风控制系统 100\n 麦克风支架 1\n 麦克风 10\n Auto模式 11\n Reset模式 12\n TOF摄像机 20\n 镜头 21\n 影像传感器 22\n 制动单元 30\n 控制器 40\n Auto按钮 41\n Reset按钮 42\n 存储器 50\n 预设标准 51\n 3D人脸资料 52\n 处理器 60\n 3D人脸模板建立模块 61\n 影像信息处理模块 62\n 3D人脸识别模块 63\n[0018] \n 控制模块 64\n具体实施方式\n[0019] 参阅图1所示,是本发明麦克风控制系统100较佳实施例的硬件架构图。\n[0020] 在本实施例中,该麦克风控制系统100包括麦克风10、时间飞行(Time of Flight,TOF)摄像机20、制动单元30、控制器40、存储器50及处理器60。麦克风10与制动单元30相连接,TOF摄像机20、制动单元30、控制器40及存储器50分别与处理器60相连接。参阅图10所示,该麦克风控制系统100安装在一个麦克风支架1上,并且TOF摄像机20始终和麦克风10位于同一水平位置。\n[0021] TOF摄像机20包括镜头21和影像传感器22,影像传感器22通过镜头21对被拍摄物体进行聚焦。该影像传感器22可以为电荷耦合装置(charged coupled device,CCD)或互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)。\n[0022] 该TOF摄像机20可以获取场景影像(如图6及图7所示)中被拍摄物体的景深信息。所述被拍摄物体的景深信息是指被拍摄物体各点与镜头21的距离信息。由于TOF摄像机20在拍摄目标物时,将发射一定波长的信号,当信号遇到目标物时即会反射至TOF摄像机20的镜头21,根据信号发射与接收之间的时间差即可计算出目标物上各点与镜头21之间的距离信息,因此该TOF摄像机20可得到场景影像中被拍摄物体各点与镜头21之间的距离信息。\n[0023] 存储器50用于储存TOF摄像机20预先拍摄的大量三维(Three-Dimensional,3D)人脸影像。\n[0024] 在本实施例中,所述的处理器60为一种可程序化芯片,其包括一系列模块化的程序化代码(参阅图3所示),处理器60执行该程序化代码,提供麦克风控制系统100的下述功能。\n[0025] 参阅图2所示,麦克风控制系统100包括两种工作模式:自动(Auto)模式11及重新设置(Reset)模式12。用户在使用麦克风控制系统100时可以按下控制器40上的Auto按钮41选择Auto模式11,或按下控制器40上的Reset按钮42选择Reset模式12。\n[0026] 当用户选择Auto模式11时,TOF摄像机20持续拍摄麦克风10前方场景得到场景影像,处理器60对场景影像进行分析侦测3D人脸区域,根据存储器50预先储存的当麦克风10调整到最好的收音位置时,3D人脸区域在场景影像中所占比例及3D人脸中口部位置在场景影像中的位置,控制制动单元30自动调整麦克风10与用户的距离及麦克风10的高度,将麦克风10调整到最好的收音位置,达到最好的收音效果。\n[0027] 当用户选择Reset模式12时,可以按住Reset按钮42不放,直到用户将脸部移动至麦克风10前方认为最好的收音位置放开Reset按钮42,TOF摄像机20拍摄包括用户脸部的场景影像,处理器60分析用户脸部区域在该场景影像中所占比例及口部位置在场景影像中的位置,并将该比例信息及位置信息暂存至存储器50。之后,在用户在Reset模式\n12使用麦克风10时,处理器60根据该暂存的比例信息及位置信息控制制动单元30自动调整麦克风10与用户的距离及麦克风的高度,将麦克风10调整到用户认为最好的收音位置。\n当用户结束Reset模式12,例如按下Auto按钮41,处理器60清空存储器50中暂存的比例信息及位置信息。\n[0028] 参阅图3所示,是图1中处理器60和存储器50的功能模块图。\n[0029] 存储器50存储有预设标准51及3D人脸资料52。3D人脸资料52包括搜集的TOF摄像机20之前拍摄的大量的3D人脸影像。预设标准51包括3D人脸影像中各特征点像素值的容许范围,处理器60根据该容许范围在场景影像中侦测3D人脸区域。该预设标准51还包括当麦克风10处于最好的收音位置时,TOF摄像机20拍摄得到的场景影像中3D人脸区域在场景影像中所占的比例(以下称作第一比例)(例如25%),用于确定3D人脸中口部位置的第二比例(例如1/3),以及口部位置在场景影像中的预设位置(例如口部位置是否与场景影像的中心线重合)。该预设标准51可以是应用于麦克风10的Auto模式11的出厂预先值,也可以是Reset模式12下用户将脸部移动至麦克风10前方认为最好的收音位置时,处理器60分析TOF摄像机20拍摄的包括用户脸部的场景影像计算得到的。\n[0030] 参阅图3所示,在本实施例中,该处理器60包括3D人脸模板建立模块61、影像信息处理模块62、3D人脸识别模块63及控制模块64。\n[0031] 3D人脸模板建立模块61根据存储器50储存的3D人脸影像中各点与镜头21之间的距离信息建立3D人脸模板,用于储存3D人脸影像中各特征点的像素值的容许范围,具体介绍如下:\n[0032] 分析存储器50中储存的每张3D人脸影像,得到该3D人脸影像中面部轮廓上各特征点(例如双眼、鼻尖、眉心、嘴唇、眉毛等)至镜头21的距离数据,并将该距离数据转换为像素值(取值范围为0~255)储存至该3D人脸影像的特征矩阵。3D人脸模板建立模块\n61还用于对所有3D人脸影像的特征矩阵根据设定的一个或多个特征点(例如双眼)进行对齐后,对所有特征矩阵中相同特征点的像素值进行逐点统计,得到3D人脸影像中各特征点的像素值的容许范围组成的3D人脸模板。\n[0033] 例如,3D人脸模板建立模块61分析一张3D人脸影像的200个特征点,得到各特征点至镜头21的距离数据并转换为像素值,例如鼻尖至镜头21的Z方向的距离为61厘米被转换为像素值255,眉心至镜头21的Z方向的距离为59厘米被转换为像素值253,等等。\n3D人脸模板建立模块61将该200个特征点的像素值储存至该3D人脸影像的特征矩阵。假设3D人脸影像一共有10张,3D人脸模板建立模块61依此方法计算得到其它9张3D人脸影像的特征矩阵,将得到的10个特征矩阵依据双眼的像素值进行对齐后,对该10个特征矩阵中相同特征点的像素值进行统计,得到各特征点的像素值的容许范围。例如,该10个特征矩阵中鼻尖的像素值范围为[251,255],眉心的像素值范围为[250,254]。\n[0034] 影像信息处理模块62获取TOF摄像机20拍摄的场景影像,将该场景影像中各点到镜头21的距离转换为像素值储存至该场景影像的特征矩阵。\n[0035] 3D人脸识别模块63将该场景影像的特征矩阵中各点的像素值与3D人脸模板中相应特征点的像素值的容许范围进行比较,判断该场景影像是否存在某一区域、该区域有满足第一预设数目的特征点的像素值落入3D人脸模板中相应特征点的像素值的容许范围,以侦测该场景影像中是否有3D人脸区域。例如,假设场景影像的特征矩阵为一个800*600矩阵,而3D人脸模板的特征矩阵为一个100*100矩阵,亦即该3D人脸模板储存了100*100特征点的像素值的容许范围,第一预设数目为大于或等于3D人脸模板所储存的特征点的数目的80%。则3D人脸识别模块63在场景影像的特征矩阵中每次读取100*100个特征点,并将该100*100个特征点的像素值分别与3D人脸模板中相应特征点的像素值的容许范围进行比较,若该100*100个特征点中至少有80%的特征点的像素值落入3D人脸模板中相应特征点的像素值的容许范围,则3D人脸识别模块63判断该100*100个特征点对应的区域为3D人脸区域。\n[0036] 控制模块64用于判断3D人脸区域在场景影像中所占比例是否等于第一预设比例(例如25%)。若3D人脸区域在场景影像中所占比例不等于第一预设比例,则控制模块64下达第一控制指令至制动单元30调整麦克风10与用户的距离,直到在TOF摄像机20拍摄的场景影像中,3D人脸区域在场景影像中所占比例等于第一预设比例。\n[0037] 3D人脸识别模块63还用于根据第二预设比例(例如1/3)在3D人脸区域中确定口部位置。控制模块64还用于判断口部位置在场景影像中的预设位置,例如口部位置是否与场景影像的中心线重合。若口部位置不在场景影像中的预设位置,则控制模块64下达第二控制指令至制动单元30调整麦克风10的高度,直到口部位置处于场景影像中的预设位置。\n[0038] 参阅图4所示,是本发明麦克风控制方法较佳实施例的流程图。\n[0039] 步骤S31,TOF摄像机20拍摄麦克风10前方的场景,得到场景影像(如图6所示)。\n[0040] 步骤S32,3D人脸识别模块63从场景影像中侦测3D人脸区域(具体介绍请参阅图5)。\n[0041] 步骤S33,控制模块64判断3D人脸区域在场景影像中所占比例是否等于第一预设比例(例如25%)。该第一比例可以是应用于麦克风10的Auto模式11的出厂预先值,也可以是Reset模式12下用户将脸部移动至麦克风10前方认为最好的收音位置时,处理器\n60分析TOF摄像机20拍摄的包括用户脸部的场景影像计算得到的。3D人脸区域在场景影像中所占比例可以根据3D人脸区域的面积及场景影像计算得到。在本实施例中,3D人脸区域的面积等于包围3D人脸区域的最小长方形的面积。若控制模块64判断3D人脸区域在场景影像中所占比例小于或等于第一预设比例,例如架设图6中3D人脸区域在场景影像中所占比例为10%,则表明麦克风10与用户的距离过远或过近,需要进行调整,流程进入步骤S34。\n[0042] 步骤S34,控制模块64下达第一控制指令至制动单元30调整麦克风10与用户的距离,之后,流程返回步骤S31,直到在TOF摄像机20拍摄的场景影像中,3D人脸区域在场景影像中所占比例等于第一预设比例(如图7所示)。\n[0043] 若在步骤S33,控制模块64判断3D人脸区域在场景影像中所占比例等于第一预设比例,则流程进入步骤S35,3D人脸识别模块63根据第二预设比例在3D人脸区域中确定口部位置。例如,若该第二预设比例为1/3,则3D人脸识别模块63以3D人脸区域下1/3处为用户口部位置(如图8所示)。该第二比例可以是应用于麦克风10的Auto模式11的出厂预先值,也可以是Reset模式12下用户将脸部移动至麦克风10前方认为最好的收音位置时,处理器60分析TOF摄像机20拍摄的包括用户脸部的场景影像计算得到的。\n[0044] 步骤S36,控制模块64判断口部位置在场景影像中的预设位置,例如口部位置是否与场景影像中心线重合。该预设位置可以是应用于麦克风10的Auto模式11的出厂预先值,也可以是Reset模式12下用户将脸部移动至麦克风10前方认为最好的收音位置时,处理器60分析TOF摄像机20拍摄的包括用户脸部的场景影像计算得到的。若口部位置在场景影像中的预设位置,则流程结束。若口部位置不在场景影像中的预设位置,则流程进入步骤S37,控制模块64下达第二控制指令至制动单元30调整麦克风的高度,之后,流程返回步骤S31,直到在TOF摄像机20拍摄的场景影像中,用户口部位置处于场景影像中的预设位置(如图9所示),流程结束。\n[0045] 参阅图5所示,是图4中步骤S32的具体流程图。\n[0046] 步骤S321,影像信息处理模块62将场景影像中各点到镜头21的距离转换为像素值储存至该场景影像的特征矩阵。\n[0047] 步骤S323,3D人脸识别模块63将该场景影像的特征矩阵中各点的像素值与3D人脸模板中相应特征点的像素值的容许范围进行比较,判断该场景影像是否存在某一区域、该区域有满足第一预设数目的特征点的像素值落入3D人脸模板中相应特征点的像素值的容许范围,以侦测该场景影像中是否有3D人脸区域。例如,假设场景影像的特征矩阵为一个800*600矩阵,而3D人脸模板的特征矩阵为一个100*100矩阵,亦即该3D人脸模板储存了100*100特征点的像素值的容许范围,第一预设数目为大于或等于3D人脸模板所储存的特征点的数目的80%。则3D人脸识别模块63在场景影像的特征矩阵中每次读取100*100个特征点,并将每次取的100*100个特征点的像素值分别与3D人脸模板中相应特征点的像素值的容许范围进行比较,判断是否某次取的100*100个特征点中至少有80%的特征点的像素值落入3D人脸模板中相应特征点的像素值的容许范围。则3D人脸识别模块63判断该100*100个特征点对应的区域为3D人脸区域。若该场景影像是否存在某一区域、该区域有满足第一预设数目的特征点的像素值落入3D人脸模板中相应特征点的像素值的容许范围,例如某次取的100*100个特征点中至少有80%的特征点的像素值落入3D人脸模板中相应特征点的像素值的容许范围,则在步骤S327,3D人脸识别模块63判断该100*100个特征点对应的区域为3D人脸区域。若该场景影像不存在某一区域、该区域有满足第一预设数目的特征点的像素值落入3D人脸模板中相应特征点的像素值的容许范围,则流程返回步骤S31。
法律信息
- 2017-10-17
未缴年费专利权终止
IPC(主分类): H04R 29/00
专利号: ZL 201010262470.7
申请日: 2010.08.25
授权公告日: 2016.01.27
- 2016-01-27
- 2015-12-23
专利申请权的转移
登记生效日: 2015.12.04
申请人由鸿富锦精密工业(深圳)有限公司变更为赛恩倍吉科技顾问(深圳)有限公司
地址由518109 广东省深圳市宝安区龙华镇油松第十工业区东环二路2号变更为518109 广东省深圳市龙华新区龙观东路83号荣群大厦11楼
申请人由鸿海精密工业股份有限公司变更为空
- 2013-07-03
实质审查的生效
IPC(主分类): H04R 29/00
专利申请号: 201010262470.7
申请日: 2010.08.25
- 2012-03-14
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| | 暂无 |
1989-01-27
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |