视讯设备控制方法、装置及视讯系统

发明专利有效专利

申请号：
CN201210025289.3
IPC分类号：H04N7/14;H04N7/15;H04N5/232;G09G5/00
申请日期：
2012-02-06
申请人：
华为技术有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	视讯设备控制方法、装置及视讯系统
申请号	CN201210025289.3	申请日期	2012-02-06
法律状态	授权	申报国家	中国
公开/公告日	2012-07-04	公开/公告号	CN102547209A
优先权	暂无	优先权号	暂无
主分类号	H04N7/14 ? IPC结构图谱： H 电学 H9 电学 H04 电通信技术 H04N 图像通信，如电视 H04N7/00 电视系统（部件入H04N 3/00，H04N 5/00；用于数字视频信号编码，解码，压缩或解压缩的方法或装置；可选的内容分发入H04N 21/00） H04N7/14 双向工作系统〔5〕	IPC分类号	H;0;4;N;7;/;1;4;;;H;0;4;N;7;/;1;5;;;H;0;4;N;5;/;2;3;2;;;G;0;9;G;5;/;0;0查看分类表>
申请人	华为技术有限公司	申请人地址	广东省深圳市龙岗区坂田华为总部办公楼变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	华为技术有限公司	当前权利人	华为技术有限公司
发明人	凌伟君
代理机构	北京弘权知识产权代理事务所（普通合伙）	代理人	许伟群;郭放

摘要

本发明实施例公开了一种视讯设备控制方法、装置和视讯系统，所述视讯设备包括相对固定、朝向一致且与一运动机构相连的显示器和摄像机，所述方法包括：获取从会场图像识别出的与会者人脸图像，所述会场图像由所述摄像机摄取并提供；分析所述人脸图像，并在参考分析结果判断出所述与会者的脸部位置偏离正对所述显示器和摄像机的方向时，确定偏离方向；控制所述运动机构依据所述偏离方向，驱动所述显示器和摄像机移动至与所述与会者的脸部位置正对的位置。本发明实施例通过控制运动机构工作来移动所述显示器及摄像机来适应与会者的多种与会模式，并能保证了与会者之间“水平眼对眼效果”，且无需修改会场环境。

视讯设备控制方法、装置及视讯系统\n技术领域\n[0001] 本发明涉及音视频通信技术领域，更具体地说，涉及一种视讯设备控制方法、装置及具有该装置的视讯系统。\n背景技术\n[0002] 视讯系统是一种集视频、音频、数据通信于一体的新一代交互式多媒体通信系统，是基于通信网络上的一种增值业务，其为身处异地的与会者提供了一个虚拟的会议室，使与会者们就像身处于同一个房间内，方便的召开“面对面”的会议。为了有效的削减运营成本，越来越多企业、政府机关等选择利用视讯会议来取代原来的城市与国家之间的商务出差。\n[0003] 现有技术中，一般是按照与会者参加会议的模式(常规模式是坐着参加会议的方式，下面简称为与会模式)来设计会场环境，所述会场环境包括与会者座位及各种视讯设备(包括显示器、摄像机)的位置。一方面，从降低会场环境配置工作量的角度，为了避免频繁改动会场环境带来较多的工作量，会场环境一般是不做改变的。另一方面，从方便与会者参加会议的角度，与会模式应当是灵活变化的，这样可以适应不同与会者的习惯，如有些与会者习惯坐着参加会议，而有些与会者习惯站着参加会议；另外，也可以适应与会者的会议需求，如在技术报告会上，需要与会者演示某技术内容，不可避免地会改变与会模式。但是，这两方面的需求在现有技术中却是矛盾的：由于会议环境是根据与会模式配置的，两者之间是一种绑定的关系，这意味着如要灵活改变与会模式以适应与会者的与会需求，则需要重新配置会议环境，而如果保持会议环境配置，则无法适应与会者的与会需求。\n发明内容\n[0004] 有鉴于此，本发明实施例提供一种视讯设备控制方法、装置及具有该装置的视讯系统，能够在与会者位置发生变化时调整摄像机及显示器的朝向，从而保证与与会者之间的“正对”关系，灵活适应与会者的多种与会模式并且无需修改会场环境。\n[0005] 本发明实施例是这样实现的：\n[0006] 一方面，本发明实施例提供一种视讯设备控制方法，所述视讯设备包括显示器和摄像机，所述显示器和摄像机相对固定、朝向一致且与一运动机构相连，所述方法包括：\n[0007] 获取从会场图像识别出的与会者人脸图像，所述会场图像由所述摄像机摄取并提供；\n[0008] 分析所述人脸图像，并在参考分析结果判断出所述与会者的脸部位置偏离正对所述显示器和摄像机的方向时，确定偏离方向；\n[0009] 控制所述运动机构依据所述偏离方向，驱动所述显示器和摄像机移动至与所述与会者的脸部位置正对的位置。\n[0010] 另一方面，本发明实施例还提供一种视讯设备控制装置，所述视讯设备包括显示器和摄像机，所述显示器和摄像机相对固定、朝向一致且与一运动机构相连，所述视讯设备控制装置包括：\n[0011] 获取单元，用于获取从会场图像识别出的与会者人脸图像，所述会场图像由所述摄像机摄取并提供；\n[0012] 分析单元，用于分析所述人脸图像；\n[0013] 判断单元，用于参考所述分析单元的分析结果，判断所述与会者的脸部位置是否偏离正对所述显示器及摄像机的方向，并在所述与会者的脸部位置偏离正对所述显示器及摄像机的方向时，确定偏离方向；\n[0014] 控制单元，用于控制所述运动机构依据所述偏离方向，驱动所述显示器及摄像机移动至与所述与会者的脸部位置正对的位置。\n[0015] 另一方面，本发明实施例还提供一种视讯系统，包括视讯设备及中央控制单元，所述视讯设备包括显示器和摄像机，所述显示器和摄像机相对固定、朝向一致且与一运动机构相连，所述系统还包括：\n[0016] 获取所述摄像机提供的会场图像，从中识别出与会者的人脸图像的人脸识别引擎；\n[0017] 所述中央控制单元用于从所述人脸识别引擎获取所述人脸图像，分析所述人脸图像，并在参考分析结果判断出所述与会者的脸部位置偏离正对所述显示器及摄像机的方向时，确定偏离方向，控制所述运动机构依据所述偏离方向，驱动所述显示器和摄像机移动至与所述与会者的脸部位置正对的位置。\n[0018] 从上述的技术方案可以看出，与现有技术相比，本发明实施例在将显示器和摄像机相对位置固定地(即联动)设置于一运动机构上，能够在摄像机摄取的与会图像中识别出与会者脸部位置后，在判断出与会者脸部朝向发生变化时，通过控制运动机构工作来移动所述显示器及摄像机，保证显示屏和摄像机正对着与会者，从而能够摄取到与会者的正面图像并保证与会者观看显示屏画面时是正面水平平视的，即保证了与会者之间“水平眼对眼效果”。如此，在保持会场环境不变的情况下，适应与会者的多种与会模式。\n附图说明\n[0019] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。\n[0020] 图1为本发明实施例提供的一种视讯设备控制方法的流程图；\n[0021] 图2为一种会场环境示意图；\n[0022] 图3为本发明实施例提供的另一种视讯设备控制方法的流程图；\n[0023] 图4为经过图3所示方法之后与会者与显示器及摄像机的示意图；\n[0024] 图5为另一种会场环境示意图；\n[0025] 图6为本发明实施例提供的又一种视讯设备控制方法的流程图；\n[0026] 图7为经过图6所示方法之后与会者与显示器及摄像机的一种示意图；\n[0027] 图8为经过图6所示方法之后与会者与显示器及摄像机的另一种示意图；\n[0028] 图9为本发明实施例提供的另外一种视讯设备控制方法的流程图；\n[0029] 图10为又一种会场环境示意图；\n[0030] 图11为本发明实施例提供的另外一种视讯设备控制方法的流程图；\n[0031] 图12为本发明实施例提供的一种视讯设备控制装置的结构示意图；\n[0032] 图13-图16为本发明实施例提供的几种视讯系统的结构示意图。\n具体实施方式\n[0033] 本发明实施例提供了一种技术方案，能够在与会者位置发生变化时调整摄像机及显示器的朝向，从而保证与与会者之间的“正对”关系，在无需改变会场环境的情况下，灵活适应与会者的多种与会模式。\n[0034] 为了引用和清楚起见，本文中使用的技术名词、简写或缩写总结如下：\n[0035] WEB，web，即Web页面网状组织；\n[0036] WIFI，Wireless Fidelity，即无线保真；\n[0037] C/S，Client/Server，即客户/服务器；\n[0038] MIC，Microphone，麦克风；\n[0039] IP，Internet Protocol，网络互连协议。\n[0040] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。\n[0041] 本发明实施例公开的视讯设备控制方法针对摄像机和显示器处于“联动”关系的视讯设备，即摄像机和显示器位置相对固定、朝向一致且与一运动机构相连，在所述运动机构的驱动下运动(移动或转动)。\n[0042] 图1示出了所述视讯设备控制方法的流程图，包括以下步骤：\n[0043] 步骤S101、获取从会场图像识别出的与会者人脸图像，所述会场图像由所述摄像机摄取并提供。\n[0044] 具体的过程为：首先通过摄像机摄取会场图像，然后通过人脸识别技术从所述会场图像中识别出与会者的人脸图像。\n[0045] 步骤S102、分析所述人脸图像。\n[0046] 步骤S103、并参考分析结果判断所述与会者的脸部位置是否偏离正对所述显示器及摄像机的方向，若是，进入步骤S104，否则，返回步骤S101。\n[0047] 步骤S104、确定偏离方向。\n[0048] 分析所述人脸图像，参考分析结果判断所述与会者的脸部位置是否偏离正对所述视讯设备的方向，并确定偏离距离，具有多种方式，下面做简单介绍：\n[0049] 一种方式图像比对方式，即：将上述步骤S101获取到的人脸图像与预先存储的参考人脸图像进行比对，所述参考人脸图像是正对所述视讯设备方向的人脸图像，因此，如果比较结果显示获取到的人脸图像与所述参考人脸图像位置不一致，则可认为所述与会者的脸部位置偏离正对所述视讯设备的方向。\n[0050] 还有一种方式是同时结合图像比对及声音比对方式，即：将上述步骤S101获取到的人脸图像与预先存储的参考人脸图像进行比对，图像比对过程与上述方式相同，同时采集与会者前方两侧(即所述视讯设备正前方的两侧)的会场音频数据，并进行比较，当两侧的会场声音音量相等或基本相等时，可以认为与会者的脸部位置正对所述视讯设备方向，而当两侧的会场声音音量明显不相等(可以设置阈值，当音量差值超过该阈值，则认为音量明显不相等)，则可认为与会者的脸部位置偏离正对所述视讯设备的方向。\n[0051] 可以理解，参考分析结果判断所述与会者的脸部位置是否偏离正对所述视讯设备的方向，并确定偏离距离，还可以有其他的实现方式，上述对于具体方式的实现不构成对于本发明范围的限制。\n[0052] 所述参考人脸图像为与会者脸部位置正对视讯设备的图像，可以在执行上述步骤S101开始之前，由与会者端坐(或者站立)于视讯设备前方，脸部位置正对所述摄像机，由所述摄像机摄取并存储于视讯系统中央处理器或者单独一个存储器内，此过程可称为一个“学习”的过程。当然，也可以是所述与会者在之前其他视讯会议时所采集的脸部位置正对视讯设备的图像。\n[0053] 步骤S105、控制所述运动机构依据所述偏离方向，驱动所述视讯设备移动至与所述与会者的脸部位置正对的位置。\n[0054] 在判断出与会者的脸部位置偏离正对所述视讯设备的方向后，至少有以下两种方式控制所述运动机构以驱动所述视讯设备移动至与所述与会者的脸部正对的位置：\n[0055] 一种控制方式是：根据偏离方向确定调整方向，例如当步骤S101获取到的人脸图像中某些主要特征(例如眼镜、鼻子或嘴巴)位于参考人脸图像中相应特征的左侧，则可确定与会者向左移动，从而可以确定视讯设备的调整方向为“向右”。则可以控制运动机构驱动所述视讯设备向右移动，每次移动预定距离(步长)，并在每次移动后获取从会场图像识别出的与会者人脸图像，与所述参考人脸图像进行比较，根据比较结果判断两者是否重合(或者一致)，若是，则停止运动机构工作，否则，继续控制运动机构驱动所述视讯设备向右移动，直至两者重合(或者一致)。\n[0056] 另一种控制方式是：进一步确定调整距离，然后控制运动机构驱动所述视讯设备沿着所述调整方向移动所述调整距离；具体可通过如下方式确定调整距离和移动，但并不局限于此：\n[0057] 根据系统的经验值估计得到目标调整位置，并以此目标调整位置估算出需要调整的距离，然后通过控制运动机构驱动视讯设备进行移动，当达到目标调整位置后，利用摄像机拍摄与会者的图像与预先摄取的与会者脸部位置图像进行比较，利用比较结构进行运动机构的微量控制，使调整后摄相机拍摄的与会者的图像与预先存储的参考人脸图像基本重合或者方位一致。\n[0058] 可以看出，本发明实施例将显示器与摄像机设置为联动结构，结合人脸识别技术判断与会者位置是否发生变化，并在确定与会者脸部位置偏离显示器和摄像机时，控制显示器和摄像机移动至正对所述与会者的位置。至少具有以下作用：\n[0059] 1、由于显示器与摄像机是“联动”的关系，则在与会者正对显示器时摄像机能够摄取与会者的正面图像，即在保证摄像机摄取正面图像的情况下与会者之间能够保持“水平眼对眼”的交流；\n[0060] 2、本实施例中，在与会者与会模式改变的情况下，显示器可以根据与会者的与会模式进行位置调整，此过程无需改变会场环境，即本实施例能够在不修改会场环境的情况下适应与会者的多种与会模式。\n[0061] 一般情况下，与会者的位置变化可以分为垂直方向上的变化、水平方向上的变化及结合垂直方向和水平方向的变化，为了本领域技术人员能够更清楚的理解本发明实施例，下面针对这三种位置变化提供几个应用例：\n[0062] 应用例一\n[0063] 会议开始时，与会者坐在显示器和摄像机前方，脸部位置正对所述显示器和摄像机前方，如图2所示，图中，点划线表示显示器的正对范围，虚线表示摄像机的摄像范围。之后，与会者从坐着模式变成站立模式，水平方向上无变化。\n[0064] 此过程中，本发明实施例的控制方法的流程如图3所示，包括以下步骤：\n[0065] 步骤S301、获取与会者人脸图像。\n[0066] 通过摄像机摄取会场图像，并由人脸搜索引擎从所述会场图像识别出与会者的人脸图像。\n[0067] 步骤S302-步骤S303、比较所述人脸图像及预先存储的参考人脸图像，根据比较结果判断与会者脸部位置是否偏离显示器及摄像机的正对方向，若是，进入步骤S304，否则，返回步骤S301。\n[0068] 步骤S304、确认与会者脸部位置的在垂直方向上向上偏移。\n[0069] 具体过程可以是，判断两幅图像中主要特征(例如眼睛、鼻子或嘴巴)的位置，如果位置一样，则意味着与会者位置没有发生变化，如果不一样，则意味着与会者的脸部位置偏离显示器及摄像机的正对方向。本实施例中，当获取到的与会者人脸图像与所述预先存储的参考人脸图像位置偏上，则可确定与会者从坐着变成站立，即表明所述与会者的脸部位置仅在垂直方向上从较低位置移动至较高位置，而水平方向上则无变化。\n[0070] 步骤S305、控制运动机构驱动所述显示器和摄像机向上移动，返回步骤S301。其中，根据实时判断出的与会者的位置变化控制运动机构驱动所述显示器和摄像机移动，并且移动的方向可以根据判断出的与会者的位置进行动态调整。所述运动机构至少包括垂直升降机构，垂直升降机构可以采用丝杆或者齿轮的方式实现升降，属于现有技术，本文对此不做赘述。\n[0071] 在执行本发明实施例过程中，可能与会者位置又发生了变化，因此需要再继续返回执行步骤S301-步骤S303，必要时还需要执行步骤S304和步骤S305，甚至继续执行下一次循环(步骤S301-步骤S305)。经过一次或多次循环，与会者的脸部位置正对显示器及摄像机，如图4所示。\n[0072] 本发明实施例对于与会者从站立变成坐下的情况，基本思路与本应用例相似，区别仅是：确认与会者脸部位置的在垂直方向上向下偏移后，控制运动机构驱动所述显示器和摄像机向下移动。\n[0073] 需要说明的是，对于与会者仅在两种与会模式之间切换的，例如与会者只有站着和坐着两种模式，可以预先确定与会者坐着及站立时脸部位置的偏移距离，以便后续在确认出与会者脸部位置发生偏离时，控制显示器及摄像机沿偏离方向移动所述偏移距离，方便、快捷。\n[0074] 应用例二\n[0075] 与会初始，与会者坐在(或站立于)显示器和摄像机前方，脸部位置正对所述显示器和摄像机前方，如图5所示。之后，与会者从在水平方向上向左移动至会场上的另外一个位置，垂直方向上无变化。\n[0076] 此过程中，本发明实施例的控制方法的一种实现流程如图6所示，包括以下步骤：\n[0077] 步骤S601、获取与会者人脸图像。\n[0078] 与前文步骤S301内容基本相同。\n[0079] 步骤S602-步骤S603、比较所述人脸图像及预先存储的参考人脸图像，根据比较结果判断与会者脸部位置是否偏离显示器及摄像机的正对方向，若是，进入步骤S604，否则，返回步骤S601。\n[0080] 步骤S604、确认与会者脸部位置的在水平方向上向左偏移。\n[0081] 具体过程可以是，判断两幅图像中主要特征(例如眼睛、鼻子或嘴巴)的位置，如果位置一样，则意味着与会者位置没有发生变化，如果不一样，则意味着与会者的脸部位置偏离显示器及摄像机的正对方向。本实施例中，与会者从一个位置向左(从与会者的角度)移动到另外一个位置站立，则相当于所述与会者的脸部位置仅在水平方向上移动，而垂直方向上则无变化，即，采用上述定位方式能够区别与会者在水平方位上的移动方向。\n[0082] 步骤S605、控制运动机构驱动所述显示器和摄像机向右转动，返回步骤S601。所述运动机构至少包括水平转动机构，所述水平转动机构可以采用连杆、凸轮或者齿轮实现所述显示器和摄像机的水平转动，属于现有技术，本文不做赘述。\n[0083] 在驱动所述显示器和摄像机向右转动后，此过程中可能与会者位置又发生了变化，因此需要再继续返回执行步骤S601-步骤S603，必要时还需要执行步骤S604和步骤S605，甚至继续执行下一次循环(步骤S601-步骤S605)。经过一次或多次循环，与会者的脸部位置正对显示器及摄像机，如图7所示，图中虚线表示原先位置，实线表示当前位置。\n需要说明的是，在其他实施例中，所述显示器和摄像机的运动方式是水平移动，需要由水平移动机构代替所述水平转动机构，所述水平移动机构可以通过滑轨结构实现所述显示器和摄像机的水平移动，同样属于现有技术，本文不做赘述。\n[0084] 当然，对于与会者从在水平方向上向左移动至会场上的另外一个位置，垂直方向上无变化的情况，本应用例仅在步骤S604时确定与会者脸部位置的在水平方向上向右偏移，并在步骤S605时，控制运动机构驱动所述显示器和摄像机向左转动，其他基本相同。经过一次或多次循环，与会者的脸部位置正对显示器及摄像机，如图8所示，图中虚线表示原先位置，实线表示当前位置。\n[0085] 在相同的场景下，可以结合人脸识别和跟踪技术及声音定位技术判断与会者脸部位置是否偏离显示器及摄像机的正对方向及偏离方向。具体流程如图9所示，包括以下步骤：\n[0086] 步骤S901、获取与会者人脸图像。\n[0087] 与前文步骤S601内容基本相同。\n[0088] 步骤S902、比较所述人脸图像及预先存储的参考人脸图像，得到比较结果，进入步骤S904。\n[0089] 步骤S903、采集与会者正对所述显示器和摄像机方向两侧的音频数据(具体为音量)，比较两者数值大小，进入步骤S904。\n[0090] 本应用例在会场中位于与会者前方，位于所述与会者正对所述显示器和摄像机方向的两侧分别设置一个MIC(MIC1和MIC2)，如图10所示。\n[0091] 步骤S904-步骤S905，综合考虑步骤S902和步骤S903的比较结果，判断人脸位置是否发生偏离，若是，进入步骤S906，否则进入步骤S901和步骤S903。\n[0092] 一般来说，如果与会者位置偏左或者偏右(相对于正对所述显示器和摄像机方向来说)，两个MIC采集到的音量大小也会发生变化，也就是说通过MIC，可以初步估计出与会者移动的方位，即向左还是向右，如果MIC 2采集到的音量大于MIC 1采集到的音量，并超出预设门限值(两个MIC拾音音量大小差的绝对值在这个门限值内，则不认为与会者在水平位置发生了变化)，则认为与会者在水平方向上向右移动，反之认为与会者在水平方向上向左移动。\n[0093] 但是，由于会场中不同位置可能存在杂音，即不是与会者本身发出的声音，从而会干扰判断结果，因此，本应用例仅将声音定位技术所执行判断操作得到的结果作为辅助参考，仍然以图像比较得到的判断结果作为主要依据。\n[0094] 步骤S906、确定偏离方向。\n[0095] 本应用例中，确定偏离方向为水平向左。\n[0096] 步骤S907、控制运动机构驱动所述显示器和摄像机运动，以保证与所述与会者脸部位置正对。\n[0097] 与前文两个应用例相似，本应用例可能需要执行一次或者多次循环(步骤S901-步骤S907)，才能实现显示器及摄像机正对所述会者的脸部位置。\n[0098] 本应用例利用声音定位技术采集音量数据，进行比较后，依据比较结果对采用人脸识别和跟踪技术得出的判断结果进行验证和确认，进一步提高了判断的准确性。\n[0099] 应用例三\n[0100] 与会初始，与会者坐在(或站立于)显示器和摄像机前方，脸部位置正对所述显示器和摄像机前方。之后，与会者从在水平方向上移动至会场上的另外一个位置，垂直方向也发生了变化(如从坐着变成站立)。\n[0101] 此过程中，本发明实施例的控制方法的一种实现流程如图11所示，包括以下步骤：\n[0102] 步骤S1101-步骤S1105，与上述应用例中的步骤S901-步骤S905基本相同。\n[0103] 在步骤S1105中，综合分析：如果仅在在会场中位于与会者前方，位于所述与会者正对所述显示器和摄像机方向的两侧分别设置一个MIC，则根据音量比对后所能确定的偏离方向只有偏左或偏右两种，本应用例中，依据声音定位方式得到的比较结果确定偏离方向为水平向左。而依据人脸图像比较的方式得到的比较结果确定偏离方向为“水平向左+垂直向上”。\n[0104] 步骤S1106、确定偏离方向为“水平向左+垂直向上”。\n[0105] 具体的，如果与会者位置有变化，则两个MIC采集到的音量大小也会发生变化，即当MIC 2采集到的音量小于MIC 1采集到的音量，并超出预设门限值(两个MIC拾音音量大小差的绝对值在这个门限值内，则不认为与会者在水平位置发生了变化)，则认为与会者在水平方向上向左移动；同时，本实施例中，当获取到的与会者人脸图像与所述预先存储的参考人脸图像位置偏上，即表明所述与会者的脸部位置在垂直方向上从较低位置移动至较高位置，则认为与会者在垂直方向上向上移动；因此，最后确定的偏离方向为“水平向左+垂直向上”(即偏离方向为左上方方向，该方向与水平方向呈预设角度)。\n[0106] 步骤S1107、控制运动机构驱动所述显示器和摄像机运动，以保证与所述与会者脸部位置正对。\n[0107] 显示器和摄像机运动包括两个过程：垂直移动过程+水平移动过程。可以先完成垂直移动过程，然后再进行水平移动过程，或者先完成水平移动过程，再进行垂直移动过程。\n[0108] 需要说明的是，对于上述各应用例中所述的声音定位方式，即：通过在会场中架设用于采集音量数据的音频单元(即MIC)，通过音量的比对确定是否与会者的脸部位置是否偏离正对所述显示器和摄像机的方向及偏离方向。本文只将它作为某种应用场景之下应用，即与会者从处于会场中心(如图2所示位置)的位置向左或者向右移动至另外一个位置时。在其他应用场景中，例如与会者从偏离会场中心的位置(如图7中实线所示位置)偏离至另外一个位置，所述声音定位方式将被屏蔽或关闭。\n[0109] 可以看出，本实施例提供的视讯设备控制方法中，显示器和摄像机之间为联动关系，可以在一运动机构的驱动下同时运动，方便控制，且在与会者正对显示器时摄像机能够摄取与会者的正面图像，即在保证摄像机摄取正面图像的情况下与会者之间能够保持“水平眼对眼”的交流，为与会者提供较好的与会体验。并且，能够在与会中根据与会者的与会模式的改变调整显示器和摄像机的位置，给与会者较大的空间自由度，并能适用较多的会议场景，且无需修改会场环境。\n[0110] 需要补充说明的是，本实施例所提供的方法可以是根据与会者指令触发的，也就是说，本方法在与会者的与会过程中可以不需要一直执行，而仅在接收到与会者的触发指令后执行。如此，与会者可以在需要改变在会场中位置(即改变与会模式)时触发执行本方法，在不需要改变会场中位置时，关闭或者不触发本方法的执行。其触发的方式可以通过设置在会场中或摄像机或显示器上的某按键发送指令实现，也可以通过手持电子设备(例如遥控器)发送触发控制信号实现。\n[0111] 此外，对于与会者在与会开始前已经处于偏离正对所述显示器和摄像机较远的位置的这种情况，本发明另外实施例中，可以根据所述与会者的指令直接控制所述运动机构移动或转动所述显示器和摄像机，并在接收到触发信息后才执行上述各方法实施例过程。\n也就是说，与会者可以预先对所述显示器和摄像机进行“粗调”，然后在由本实施例提供的方法进行“细调”。\n[0112] 针对上述方法本发明实施例同时还提供了一种视讯设备控制装置及具有该视讯设备控制装置的视讯系统。\n[0113] 所述视讯设备控制装置用于执行上述视讯设备控制方法相关流程。图12示出了该装置的一种逻辑结构示意图，所述视讯设备包括显示器和摄像机，所述显示器和摄像机相对固定、朝向一致且与一运动机构相连，从图中可以看出，该控制装置包括：获取单元\n121、分析单元122、判断单元123和控制单元124，其中：\n[0114] 所述获取单元121，用于获取从会场图像识别出的与会者人脸图像，所述会场图像由所述摄像机摄取并提供。\n[0115] 所述分析单元122，用于分析所述人脸图像。\n[0116] 所述判断单元123，用于参考所述分析单元的分析结果，判断所述与会者的脸部位置是否偏离正对所述显示器及摄像机的方向，并在所述与会者的脸部位置偏离正对所述显示器及摄像机的方向时，确定偏离方向。\n[0117] 所述控制单元124，用于控制所述运动机构依据所述偏离方向，驱动所述视讯设备移动至与所述与会者的脸部位置正对的位置。\n[0118] 本装置主要是用于实现上述视讯设备控制方法，因此本装置的工作过程可以参照前文方法部分的内容。\n[0119] 具体的，所述视讯控制装置为视讯系统中的中央控制单元(或中央控制器)或者作为所述中央控制单元的一部分。其通过某些管脚或者线路连接外部的摄像机、人脸搜索引擎及运动机构，连接结构如图13所示，这部分连接结构形成视讯系统或所述视讯系统的部分结构。\n[0120] 参考图14，为本发明实施例提供的一种视讯系统的结构示意图，从图中可以看出，所述视讯系统包括中央控制单元141、运动机构142、视讯设备(摄像机和显示器)143、人脸识别引擎144、音视频编解码器145、交换机146和扬声器147，其中：\n[0121] 所述摄像机和显示器143中，摄像机为系统的视频输入源，显示器为系统的输出视频显示设备，两者相对位置固定，在运动机构142驱动下联动，以进行垂直升降和水平转动(或移动)。\n[0122] 所述人脸识别引擎144的核心是人脸识别、跟踪算法，用于实时采集摄像机的视频数据(会场图像)，调用人脸识别、跟踪算法分析来分析人脸位置，并反馈给所述中央控制单元141。\n[0123] 运动机构142，包括垂直升降机构和水平转动或移动机构，并采用电子驱动方式。\n在中央控制单元的调度(即控制)下，通过驱动电机等方式控制摄像机和显示器143做垂直升降和水平转动或水平移动，或者做垂直升降、水平移动及水平转动。为系统的执行者。\n[0124] 音视频编解码器145，其一方面对会场本端(即本系统所在一端)的音视频数据进行压缩、编码，打包成IP包，传输给远端；另一方面接收来自远端会场的IP包，解IP包并进行视频数据的解码，将解码后的视频数据提供给本端的显示器进行显示，音频数据提供给本端扬声器147播放声音。是系统的数据换转者。\n[0125] 扬声器147为输出设备，接收所述音视频编解码器145输出的音频数据并播放，为系统的输出者。\n[0126] 交换机146用于协议解析和控制，为系统的传输者。\n[0127] 其工作过程如下：\n[0128] 摄像机摄取会场图像并提供给人脸识别引擎144，所述人脸识别引擎144进行人脸识别后，将识别出的人脸图像提供给所述中央控制单元141，所述中央控制单元141分析所述人脸图像，并在参考分析结果判断出所述与会者的脸部位置偏离正对所述摄像机及显示器143的方向时，确定偏离方向，然后，控制所述运动机构142依据所述偏离方向，驱动所述摄像机及显示器143移动至与所述与会者的脸部位置正对的位置。\n[0129] 所述中央控制单元141具体的图像分析过程是：调用预先存储的参考人脸图像，将人脸识别引擎144提供的人脸图像与所述参考人脸图像进行比较，根据比较结果确定人脸位置是否发生变化。所述参考人脸图像为与会者脸部位置正对视讯设备的图像，可以于会前，由与会者端坐(或者站立)于视讯设备前方，脸部位置正对所述摄像机，由所述摄像机摄取并存储于中央控制单元141内或者单独存储于一个存储器内，此过程即为本系统的“学习”过程。当然，也可以是所述与会者在之前其他视讯会议时所采集的脸部位置正对视讯设备的图像。\n[0130] 所述中央控制单元141可以直接通过管脚或电缆发送控制信号来控制所述运动机构142运动，也可以通过无线射频单元(图中未示出)发送无线控制信号来控制所述运动机构142运动。\n[0131] 在某些实施例提供个视讯系统中，还可以进一步包括位于与会者前方，位于所述与会者正对所述显示器和摄像机方向的两侧的音频设备，如图15所示，视讯系统还包括MIC1和MIC2以及处理音频数据的MIC音源处理单元148，MIC1和MIC2分别位于与会者前方，位于所述与会者正对所述显示器和摄像机方向的两侧。\n[0132] 所述MIC1和MIC2作为音源采集设备，用于完成声电转换，采集会场的声音，送给所述MIC音源处理单元148。是系统的输入者。\n[0133] 所述MIC音源处理单元148用于：对MIC1和MIC2采集的音频数据(音量)进行放大、滤波及量化等前处理，并在处理完之后，一方面将音频数据提供给音视频编解码器\n145进行解码，另一方面，比较两路MIC拾取(即采集)的音量大小，以此估计出与会者的脸部位置偏向哪个MIC，并将此估计结果传递给所述中央控制单元141，所述中央控制单元\n141即可据此大致判断出所述与会者脸部位置是否偏离正对所述摄像机和显示器143的方向及偏离方向。是系统的分析者。\n[0134] 在本视讯系统中，所述中央控制单元141综合所述人脸识别引擎144提供的信息及所述MIC音源处理单元148提供的信息，作出最终判断。需要说明的是，由于会场中不同位置可能存在杂音(即不是与会者本身发出的声音)，从而会干扰判断结果，因此，本视讯系统仅将所述MIC音源处理单元148提供的信息作为辅助参考，而以所述人脸识别引擎144提供的信息作为主要判断依据，即：当根据所述人脸识别引擎144及所述MIC音源处理单元\n148提供的信息分析得到的判断结果不一致时，以依据所述人脸识别引擎144提供的信息做出的判断为准。\n[0135] 在另外实施例提供的视讯系统中还可以包括计算机149，如图16所示，所述计算机149用于通过C/S模式访问系统的web，以对系统相应设备发起设置、控制及监控系统运行状态。也就是说，与会者可以于会前，通过该计算机149存储预先拍摄得到的参考人脸图像，为后续的图像比对提供依据，也可以通过计算机149设置相关设备(显示器、摄像机)的参数，如亮度、图像缩放等。还可以通过该计算机149控制所述运动机构142驱动所述摄像机及显示器143运动，可以对所述摄像机及显示器143的位置进行“粗调”，关于“粗调”的描述可以参考前文方法部分的内容。\n[0136] 需要说明的是，本领域技术人员应能知晓，上述各视讯系统中，所述交换机146、扬声器147属于附加功能特征，在某些场景下(例如近程通信和/或耳机模式)，可以不需要所述交换机146和/或扬声器147。\n[0137] 另外还需要说明的是，上述人脸识别引擎144、中央控制单元141的判断及控制操作，可以是系统启动后自动运行，也可以是由与会者来控制，例如：与会者在需要改变与会模式(例如由坐着变成站着)时，起立后通过电子设备(例如遥控器)发送触发控制信号，触发上述各单元进行工作。当然，与会者也可以通过电子设备发送关闭控制信号，以停止上述各单元工作。从而避免在无需改变与会模式的情况下，而上述单元仍然处于工作状态而导致的电能浪费。\n[0138] 本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。\n[0139] 本领域技术人员可以理解，可以使用许多不同的工艺和技术中的任意一种来表示信息、消息和信号。例如，上述说明中提到过的消息、信息都可以表示为电压、电流、电磁波、磁场或磁性粒子、光场或以上任意组合。\n[0140] 专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。\n[0141] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，所述程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。\n[0142] 对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。\n对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN101000508A	2007-07-18	2006-12-31	一种显示终端控制方法和装置无效专利	华为技术有限公司
2	US5778082A	暂无	1996-06-14	Method and apparatus for localization of an acoustic source失效专利	Peter L. Chu;Hong Wang
3	CN1901663A	2007-01-24	2006-07-25	一种具有声音位置信息的视频通讯系统及其获取方法有效专利	华为技术有限公司
4	CN101615033A	2009-12-30	2008-06-25	显示模块的角度调整装置及方法无效专利	和硕联合科技股份有限公司
5	CN102084291A	2011-06-01	2009-06-17	提供具有与接收者的眼对眼接触的图像的图像捕捉装置和方法有效专利	创新科技有限公司
6	CN2773743Y	暂无	2005-03-10	一种可吸附在屏幕上的摄像头失效专利	林志强
7	CN202068503U	暂无	2011-05-06	视频通信系统失效专利	深圳市江波龙电子有限公司

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供