一种具有声音位置信息的视频通讯系统及其获取方法

发明专利有效专利

申请号：
CN200610061812.2
IPC分类号：H04N7/14
申请日期：
2006-07-25
申请人：
华为技术有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种具有声音位置信息的视频通讯系统及其获取方法
申请号	CN200610061812.2	申请日期	2006-07-25
法律状态	授权	申报国家	中国
公开/公告日	2007-01-24	公开/公告号	CN1901663
优先权	暂无	优先权号	暂无
主分类号	H04N7/14 ? IPC结构图谱： H 电学 H9 电学 H04 电通信技术 H04N 图像通信，如电视 H04N7/00 电视系统（部件入H04N 3/00，H04N 5/00；用于数字视频信号编码，解码，压缩或解压缩的方法或装置；可选的内容分发入H04N 21/00） H04N7/14 双向工作系统〔5〕	IPC分类号	H;0;4;N;7;/;1;4查看分类表>
申请人	华为技术有限公司	申请人地址	广东省深圳市龙岗区坂田华为总部办公楼变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	华为技术有限公司	当前权利人	华为技术有限公司
发明人	詹五洲
代理机构	暂无	代理人	暂无

摘要

本发明公开了一种具有声音位置信息的视频通讯系统，包括用于采集多路声音的多个麦克风，可以接收控制命令转动或调整焦距的摄像头，和摄像头及多个麦克风相连接的处理器。处理器根据多个麦克风采集的多路语音计算音源位置信息，并根据摄像头的控制信息调整音源的位置信息。本发明解决了当摄像机镜头转动时，画面中说话人的位置和采集的声音方位信息不匹配的问题，采用本发明所述的视频通讯系统，可以使得重放的声音和画面中说话人的位置实现准确的匹配。

1、一种视频通讯系统，其特征在于，该系统包括： 11)两个以上麦克风，用于采集声音； 12)可以转动或调整焦距的摄像头； 13)处理器，用于根据所述麦克风采集的语音计算音源位置信息，并根据摄像头的控制信息调整音源位置信息。
2、根据权利要求1所述的视频通讯系统，所述的音源位置信息包括水平角度、垂直角度和所述麦克风与音源之间的距离。
3、根据权利要求2所述的视频通讯系统，所述的音源水平角度和垂直角度调整的方法为：修正后的音源水平角度-音源水平角度-摄像头的水平转动角度修正后的音源垂直角度-音源垂直角度-摄像头的垂直转动角度
4、根据权利要求2所述的视频通讯系统，所述的所述麦克风与音源之间的距离今,正方法为：修正后的所述麦克风与音源之间的距离=修正系数x所述麦克风与音源之间的距离其中修正系数和摄像头的焦距成反比。
5、根据权利要求1所述的视频通讯系统，所述处理器进一步用于将所述的音源位置信息转换成音源在画面上的相应位置。
6、根据权利要求5所述的视频通讯系统，所述的音源在画面上的相应位置包括音源在画面上水平方向的相对位置和垂直方向的相对位置，分别用下式计算：画面上水平方向相对位置=tanw / tancoo画面上垂直方向相对位置=tan6 / tan6o 式中(o是修正之后的音源水平方向角度，coo是水平方向会议场景边缘偏离摄像机镜头的角度，e是修正之后的音源垂直方向角度，6t)是垂直方向会议场景边缘偏离摄#^几镜头的角度。
7、根据权利要求5所述的视频通讯系统，进一步包括：一个发送终端和至少一个接收终端，所述发送终端和接收终端通过网络互通，71)发送终端将所述的音源在画面上的位置信息、所述麦克风与音源之间的距离以及声音信号发送到网络；72) 接收终端从网络接收所述的音源在画面上的位置信息、所述麦克风与音源之间的距离以及声音信号；73) 接收终端根据音源在画面上的位置信息、所述麦克风与音源之间的距离对声音信号进行处理；74) 接收终端在扬声器上播放处理过的声音信号。
8、根据权利要求5所述的视频通讯系统，进一步包括：一个发送终端和至少一个接收终端，所述发送终端和接收终端通过网络互通，81) 发送终端才艮据音源在画面上的位置信息、所述麦克风与音源之间的距离对声音信号进行处理；81 )发送终端将处理之后的声音信号发送到网络；82) 接收终端从网络接收处理之后的声音信号； 84)接收终端在扬声器上播放处理之后的声音信号。
9、一种在视频通讯系统中获取声音位置信息的方法，其特征在于，包括以下步骤：91) 用麦克风采集声音，并根据采集的语音计算音源位置信息；92) 获取摄像头控制信息；93 )根据摄像头的控制信息调整音源的位置信息。
10、一种在视频通讯系统中获取声音位置信息的装置，其特征在于，所述的装置根据麦克风采集的声音计算音源位置信息，并根据摄像头的控制信息调整音源位置信息。

一种具有声音位置信息的视频通讯系统及其获取方法\n技术领城\n本发明涉及视频通讯技术领域，具体涉及一种具有声音位置信息的视频通讯系统。背景技术\n目前电视机的屏幕越来越大，此外有的视频通讯系统采用投影仪或电视墙显示，导致与会者在画面上移动的位置较大，而目前的多媒体通讯系统的声音并没有根据说话者的位置发生改变，即声音没有方位信息，导致视频通讯缺乏真实感。\n在公开号为20030048353的美国专利中，公开了一种解决上述问题的方法，具体方案是:在电视机顶部放置一个长条型的装置，在该装置里有多个麦克风，多个扬声器，以及摄像头。对多个麦克风采集的声音信号进行处理之后，可以获得一个语音信号，以及一个相对于长条型装置的说话人方位信息。视频通讯系统的发送端将获得的语音信号和说话人方位信息通过网络传送到接收端，接收端根据接受到的方位信息，选择一个或多个扬声器播放，这样在接收端就可以重现说话者的方位信息。\n上述专利公开的方案中，发送端釆集的方位信息是相对于长条型装置的，而不是相对于摄像机镜头的。这样会带来一个问题：当转动摄像机镜头时，长条形装置正前方的说话人就在画面的旁边，甚至不在画面之内，而采集的声音方位信息还是正前方的，这样就导致画面中说话人的位置和采集的方位信息不匹配。\n因此需要提供一种方法来解决上述专利中存在的当摄像机镜头转动时，画面中说话人的位置和采集的声音方位信息不匹配的问题。发明内容\n本发明的目的在于提供一种视频通讯系统及其获取方法，可以使得重放的声音和画面中说话人的位置实现准确的匹配。\n为达到本发明的目的，所采取的技术方案是：\n一种具有声音位置信息的视频通讯系统，所述的视频通讯系统包括：11) 两个以上麦克风，用于采集声音；\n12) 可以转动或调整焦距的4聂^像头；\n13) 处理器，用子根据所迷麦克风采集的语音计算音源位置信息，并根据摄像头的控制信息调整音源的位置信息。\n所述的音源位置信息包括水平角度、垂直角度和所述麦克风与音源之间的距离。所述的音源水平角度和垂直角度调整的方法为：\n修正后的音源水平角度=音源水平角度-摄像头的水平转动角度修正后的音源垂直角度=音源垂直角度-摄像头的垂直转动角度所述的所述麦克风与音源之间的距离修正方法为：\n修正后的所述麦克风与音源之间的距离=修正系数x所述麦克风与音源之间的距离\n其中修正系数和摄像头的焦距成反比。\n所述的视频通讯系统，所述处理器进一步用于将所述的音源位置信息转换成音源在画面上的相应位置。所述的音源在画面上的相应位置包括音源在画面上水平方向的相对位置和垂直方向的相对位置，分别用下式计算：\n画面上水平方向相对位置=tanco / tan coo 画面上垂直方向相对位置=tan6 / tan6o\n式中CO是修正之后的音源水平方向角度，（OQ是水平方向会议场景边缘偏离摄\n像机镜头的角度，e是修正之后的音源垂直方向角度，eo是垂直方向会议场\n景边缘偏离摄<|4几镜头的角度。\n所述的视频通讯系统，还进一步包括下面（一）和（二）之一： (一）、\n71) 发送终端将所述的音源在画面上的位置信息、所述麦克风与音源之间的距离以及声音信号发送到网络；\n72) 接收终端从网落接收所述的音源在画面上的位置信息、所述麦克风与音源之间的距离以及声音信号；\n73) 接收终端根据音源在画面上的位置信息、所述麦克风与音源之间的距离对声音信号进行处理；\n74) 接收终端在扬声器上播放处理过的声音信号。\n5(二）、\n81) 发送终端才艮据音源在画面上的位置信息、所述麦克风与音源之间的距离对声音信号进行处理；\n81 )发送终端将处理之后的声音信号发送到网络；\n82) 接收终端从网络接收处理之后的声音信号； 84)接收终端在扬声器上播放处理之后的声音信号。\n所述的视频通讯系统，进一步包括：重放声音的扬声器由左右两个扬声器组成，通过调整左右声道声音的幅度，使得音源在水平方向和画面匹配，通过调整声音的总体幅度来调整声源的距离，左右两声道调整的幅度采用下面两式计算：\nw' = (gl-g2)/(gl+g2) c = gl*gl+g2*g2 式中gl是左声道幅度增益，g2是右声道幅度增益，w，是声源水平方向在画面上的相对距离，c和所述麦克风与音源之间的距离成反比，如果不调整\n所述麦克风与音源之间的距离，c是一个固定值。\n一种和所述的视频通讯系统相对应的获取声音位置信息的方法，包括以下步骤：\n91) 用多个麦克风采集多路声音，并根据采集的多路语音计算音源位置信\n息；\n92) 获取摄像头控制信息；\n93 )根据摄像头的控制信息调整音源的位置信息。一种和所述获取声音位置信息方法对应的装置，其特征在于，所述的装置\n根据麦克风采集的声音计算音源位置信息，并根据摄像头的控制信息调整音源位置信息。\n采用上述技术方案，本发明有益的技术效果在于：\n1) 本发明采用摄像机控制信息调整音源位置信息，使得声源和画面中说话人的位置实现准确的匹配，增强的视频通讯系统的临场感。\n2) 本发明在对声音信号进行处理时，将声音的位置信息转换成了声源在画面上的相对位置，使得重放的声音方位不受电视机屏幕大小的影响。附图说明\n下面通过具体实施方式并结合附图对本发明作进一步的详细说明。\n图1A是视频通信系统的示意图，其中发送端掘_像头朝向正前方。\n图1B是视频通信系统的示意图，其中发送端摄像头转动了一定的角度。\n图2是调整声音位置信息的流程图。\n图3是会议场景成像示意图。\n图4是传递声音到远端并播放的流程图，其中对声音的处理在接收端进行。\n图5是传递声音到远端并播放的流程图，其中对声音的处理在发送端进行。\n具体实施方式\n图1A是视频通信系统的示意图，图中110是发送端会场，lll是接收端会场，109是通信网络，通信网络可以是IP网络、PSTN网络、无线网络等。在会场110中，IOI是摄像头，102是视频通信终端，103是电视机，104、 105 是参会者，112、 113是扬声器。会场110中还有多个麦克风，麦克风可以是置于终端102的内部或者摄像头101的内部，也可以是独立的置于外部，通过传输线和终端102相连接，或者内部外部都有麦克风。在会场lll中，106是摄像头，107是视频通信终端，108是电视机，104a、 105a是参会者104、 105 的图像，114、 115是扬声器。会场111中还有多个麦克风，麦克风可以是置于终端107的内部或者摄像头106的内部，也可以是独立的置于外部，通过传输线和终端107相连接，或者内部外部都有麦克风。发送端会场110中的摄像头 IOI捕获图像后，传送到终端102，终端102对图像经过编码等处理之后，通过网络109传输到终端107，终端107对接收到的图像码流进行解码，并将解码之后的图像传输到电视机108上显示。会场110中的麦克风捕获声音信号之后，传递给终端102，终端102进行音频编码，通过网络109将编码后的音频码流传输给终端107，终端107对接收到的音频码流解码之后，传送给扬声器 114、 115重放。图1B是和图1A完全相同的视频通信系统，只是摄像头101 转动了一定的角度。在图1A中，摄像头101正对参会者104，因此参会者104 的图像104a也显示在电视机屏幕的中间。在图1B中，摄像头101正对参会者105,因此参会者105的图像105a显示在电视机屏幕的中间，而此时参会者 104的图像104a显示在电^见机屏幕的左边。\n不失一般桂，如杲是通过内置在终端102中的多个麦克风采集的声音信号计算说话者的方位，假设当前说话者是104,由于在图1A和图1B中，说话者104相对于终端的位置都处于正前方，因此计算出的声音方位也都是正前方的，而实际上在图1B中，说话者104的图像104a已经偏移到电视机108的左边屏幕，即声音方位并没有和图像匹配，因此需要根据摄像机镜头的转动角度调整声音的方位信息。图2说明了声音位置信息的调整流程。\n在图2中，步骤201用多个麦克风采集多路声音信号，步骤202对步骤 201采集的多路声音信号进行处理，计算出音源的位置信息，具体来说，位置信息包括水平角度、垂直角度、距离等。用同时采集的多路声音计算音源的位置信息的技术，可以在现有的公开的文献中查到，在本发明中不再详述。步骤 203收集摄像头的控制信息，所述的控制信息包括水平转动角度、垂直转动角度、焦距等。步骤204根据步骤203收集到的摄像头控制信息，调整音源的位置信息。步骤205输出调整后的音源位置信息。\n用ws、 6s、 Ds分别表示步骤202计算的水平角度、垂直角度和距离，用 coc、 6c、 f分别表示步骤203收集的摄像头的水平角度、垂直角度和焦距，用co、 6、 D分别表示步骤204中修正的水平角度、垂直角度和距离，则co、 6、 D可用下面的公式计算：\nCO = COs- C0c (1)\ne = es- 6c (2)\nD = (f0/f)*Ds (3) 公式（3)中f。是摄像头默认的焦距，也可以是某一个设置的值。通常情况下，图2中的步骤201至步骤205都在发送端完成，作为一种变\n通的手段，步骤204和步骤205也可以在接收端完成，在这种情况下，在发送\n端完成的步骤201、 202、 203以及在接收端完成的步骤204、 205还应视为同\n一个流程，只是在不同的终端处理。\n图3是会议场景成像示意图，其中301是会议场景，302是摄像头，303\n是会议场景在摄像头靶面上的成像，304是会场中的一个说话者，304a是说话者304的成像，W是会议场景的宽度、H是会议场景的高度、w是成像的宽度、 h是成像的高度、L是会议场景据摄像头的距离，f是摄像头的焦距，说话人的困像304a距离靶面中心的宽度和高度分別是wo和ho。此外图3中e是说话人在垂直方向偏离镜头的角度，即修正之后的音源垂直方向角度，6o是垂直方向会议场景边缘偏离镜头的角度，即最大能捕获图像的视角；说话人在水平方向偏离镜头的角度（即修正之后的音源水平方向角度）在图中没有画出，用 co表示，另外用coo表示水平方向^i义场景边缘偏离镜头的角度。\n根据音源位置信息处理声音时，为了使声音和画面上的说话人匹配，需要将音源的位置信息转换成音源在画面上的相应位置。下面描述如何计算音源在画面上的相应位置。音源在画面上的相应位置可以用相对位置来表示，令w，和h，分别表示水平和垂直方向的相对位置，则可用下面的公式计算： w，= wo /(w/2) (4) h，= ho /(h/2) (5)\n从图3中我们可以看出：\nho/(h/2) = (ho/f) /((h/2)/f) = tan6 / tan 6 o\n同理\nwo/(w/2) = (wo/f)/((w/2)/f) = ta詣/ ta詣o 因此公式（4)、（5)等价于：\nw，=tanco/ ta詣o (6)\nh，= tan6 / tan 6 o (7) 公式（6)、（7)中的tancoo和tan6 O可分别用下面的两个公式计算：\nta歸o = (w/2)/f (8)\ntan6o = (h/2)/f (9)\n为了在接收端扬声器重放具有位置信息的声音，需要根据声源在画面上的相应位置以及修正后声源距离对声音进行处理。处理可在接收端进行，也可以在发送端进行，图4和图5说明了这两个不同的方案。\n图4是传递声音到远端并播放的流程图，步骤401中，发送端传输声音和音源位置信息到网络，其中声音可以是一路也可以是多路，优选的方案是一路，\n9音源位置信息指的是根据公式（3 )调整的音源距离以及4艮据公式（6 )、（ 7 ) 计算的音源在画面上的相应位置，网络指的是图1A和图1B中的109;步骤402 中，接收端从网络接收声音和音源位置信息；步骤403根据接收到的音源位置信息处理接收到的声音；步骤404用扬声器重放处理过的声音。\n图5是传递声音到远端并播放的流程图，在步骤501中，发送端根据音源的位置信息处理传送到远端的声音，其中声音可以是一路也可以是多路，优选的方案是二路，音源位置信息指的是根据公式（3)调整的音源距离以及根据公式（6)、（7)计算的音源在画面上的相应位置；步骤502传输已被处理的声音到网络，网络指的是图1A和图1B中的109;步骤503中，接收端从网^4姿收已被处理的声音；步骤504用扬声器重放处理过的声音。\n在图4的步骤403和图5的步骤501都需要根据音源位置信息处理声音信号，如果重放的是两个扬声器，且两个扬声器分别在电视机左右两边，一个声音处理方案是，通过调整左右声道声音的幅度，来达到音源在水平方向和画面匹配的目的，另外可通过调整声音的总体幅度来调整音源的距离，可用下面的两个公式描述具体的调整的方法：\nw， = (gl-g2)/(gl+g2) (10)\nc = gl*gl+g2*g2 (11) 公式（10)、（11)中gl是左声道幅度增益，g2是右声道幅度增益，w，是根据公式（6)计算的声源水平方向在画面上的相对距离，如果不调整音源距离，c是一个固定值，例如可以等于1，如果需调整音源距离，c和修正的音源距离成反比，如下式所示：\nc = CO/D (12) 公式（12)中CO是一个设定的固定值，D是根据公式（3)计算的修正的音源距离。\n另外一种根据音源位置信息处理声音的方法是采用HRTF(Head Related Transfer Functions),头部相关传输函数。采用HRTF虛拟出一个声源的技术在现有的技术文献中都已公开，在本发明中不再详述。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供