著录项信息
专利名称 | 超声波摄像机跟踪系统和相关方法 |
申请号 | CN200710169136.5 | 申请日期 | 2007-10-19 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2008-10-01 | 公开/公告号 | CN101277422 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04N7/15 | IPC分类号 | H;0;4;N;7;/;1;5;;;H;0;4;N;5;/;2;3;2;;;G;0;1;S;3;/;8;0;8查看分类表>
|
申请人 | 宝利通公司 | 申请人地址 | 美国加利福尼亚
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 宝利通公司 | 当前权利人 | 宝利通公司 |
发明人 | 尤瑟夫·萨利赫;彼得·舒;冯津伟;阿兰·尼米瑞 |
代理机构 | 中国国际贸易促进委员会专利商标事务所 | 代理人 | 党建华 |
摘要
本发明公开一种超声波摄像机跟踪系统和相关方法,所述摄像机跟踪系统包括可控摄像机、麦克风阵列和控制器。该麦克风位于可控摄像机附近,并至少响应从源发射的超声波。该麦克风另外能够响应可听频谱的声音。响应从所述源发射的超声波,所述控制器接收从麦克风传送的超声波信号,并对这些超声波信号进行处理,以确定所述源的至少大致位置。然后,所述控制器向可控摄像机发送一个或者多个命令信号,以将摄像机至少大致指向所述源的所确定的位置。该摄像机跟踪系统在所述源运动时对其进行跟踪,并连续发射超声波。所述源可以是具有一个或者多个超声波换能器的发射器包,所述超声波换能器产生从大约24kHz到大约40kHz扫描的声调。
超声波摄像机跟踪系统和相关方法\n[0001] 相关申请的交叉引用\n[0002] 本申请要求2006年10月19日提交的、名称为“Ultrasonic CameraTracking System and Associated Methods”的美国临时申请No.60/862,132的权益,其内容在此引用作为参考,并要求其优先权。\n背景技术\n[0003] 演讲者通常使用手持遥控器来控制视频会议系统的摄像机。但是,视频会议的目的是为参与者营造自然的体验。因此,不希望要求演讲者或者其他参与者花费大量的时间来控制摄像机和处理复杂的输入设备。\n[0004] 美国专利No.5,844,599、6,731,334和6,980,485中公开了用于摄像机跟踪的一些现有技术。例如,转让给Polycom公司的美国专利No.6,980,485公开了一种使用波束成形的自动摄像机跟踪技术。另外,Polycom提供一种用于其VSX视频会议系统的称作“自动摄像机定位”或者ACP的话音跟踪系统。另一种现有技术系统使用基于色码的跟踪和视觉分析,从而用摄像机来跟踪目标。\n[0005] 虽然有效,但是有些现有技术系统可能在某些方面具有局限性,并且可能维护起来比较困难。在话音跟踪时,例如,由于反射或者其他原因,摄像机有时可能会指向墙壁或者桌子。另外,如果某个人没有说话,则摄像机可能无法在这个人移动的同时跟踪这个人。\n而且,在存在多个话音或者不同色码的情况下,这些现有技术会出现问题。\n[0006] 本公开的主题针对克服,或者至少减小上面提出的一个或者多个问题的影响。\n发明内容\n[0007] 一种摄像机跟踪系统,包括可控摄像机、麦克风阵列和控制器。麦克风被布置为邻近可控摄像机,并至少对从源发出的超声波作出响应。麦克风可附加地能够对可听声谱内的声音作出响应。控制器响应从源发出的超声波接收从麦克风传达的超声波信号,并处理该超声波信号以确定该源的至少大致位置。然后,该控制器向可控摄像机发送一个或者多个命令信号,以使它至少大致地指向该源的所确定的位置。该摄像机跟踪系统在源移动并且连续发出超声波的同时对该源进行跟踪。该源可以是由人佩戴的发射器包。该发射器包可具有一个或者多个超声波换能器,该超声波换能器产生从大约24kHz到大约40kHz进行扫描的超声波声调。\n[0008] 前面的概述并不意图是对本公开的每个可能实施例或者每个方面的总结。\n附图说明\n[0009] 参考以下具体实施例的详细描述,结合附图进行阅读,前面的概述、优选实施例和本公开的主题的其他方面会得到最好的理解,其中:\n[0010] 图1所示的是根据本公开的某些教导的摄像机跟踪系统的一个实施例。\n[0011] 图2所示的是用于图1中的摄像机跟踪系统的控制单元的软件架构的一个实施例。\n[0012] 图3A所示的是用于摄像机跟踪系统的摄像机单元的一个实施例。\n[0013] 图3B所示的是用于图3A的摄像机跟踪系统的信号链的一个实施例。\n[0014] 图4A所示的是用于所公开的摄像机跟踪系统的、将超声波信号降低到可听范围的下采样过程的一个实施例。\n[0015] 图4B所述的是在图4A的下采样过程阶段期间的信号频谱的图。\n[0016] 图5A-5B所示的是用于所公开的摄像机跟踪系统的位置确定算法的一个实施例,其用于估计目标源的候选(candidate)位置。\n[0017] 图6A-6B所示的是摄像机跟踪系统的其他实施例。\n[0018] 图7A-7B所示的是用于所公开的摄像机跟踪系统的发射器单元的替换实施例。\n[0019] 虽然本公开的主题容易有各种变形和替换形式,但是通过附图中示例的方式示出了其具体实施例,并在此进行详细描述。附图和书面的描述不意图以任何方式对本发明构思的范围构成限制。相反,通过参照特定实施例,提供附图和书面的描述以向本领域的技术人员阐述发明构思,如35U.S.C.§112要求的那样。\n具体实施方式\n[0020] 参考图1,示意性地图示了根据本公开的某些教导的摄像机跟踪系统100的一个实施例。摄像机跟踪系统100包括摄像机单元120、控制单元130和发射器单元140。演讲者佩戴或者携带作为信标的发射器单元140,从而摄像机单元120可通过检测发射的信标信号而跟随演讲者。\n[0021] 在各种实施例中,摄像机跟踪系统100可与遥控装置150一起使用,并可与外部装置160,例如视频会议系统或者其他系统一起使用。如图所示,摄像机单元120和控制单元\n130可以是分立的部件,或者它们可以集成在一个单元中。另外,虽然外部装置160被示出为分立部件,但是摄像机单元120和控制单元130之一或者二者可以与外部装置160集成在一起。\n[0022] 在本实施例中,控制单元130控制系统100的摄像机跟踪和其他特征。控制单元\n130包括处理器(未示出),该处理器用于执行必要的计算,以执行在此公开的摄像机跟踪技术。处理器可以是能够执行所述必要的计算的任何装置,例如中央处理单元(CPU)、现场可编程门阵列(FPGA)和类似装置。控制单元130可接收经由第一连接110发自该摄像机单元120的标准NTSC、PAL s-视频或者其他类型的视频。控制单元130还经由连接110接收来自摄像机单元120的多个信道(例如4个)的线路电平音频(line level audio)。\n[0023] 经由第二连接112,控制单元130可对于摄像机单元120传达控制。经由第三连接114,控制单元130可连接至外部装置160,例如视频会议单元。这个第三连接114可允许用于向外部装置160传送视频、音频和其他信号。这个第三连接114还可允许该外部装置160使用和控制摄像机单元120用于视频会议。例如,控制单元130可支持PowerCam应用编程接口(API)或者Sony EVID-100 API,这样控制单元130可在外部装置160和摄像机单元120之间来回地传递信息包。第三连接114和第四连接116可用于输出视频,所述视频可仅包含来自摄像机单元120的视频,或者可包含视频加上通过控制单元130添加的图形用户接口的任何覆盖(overlay)。\n[0024] 摄像机单元120包括可控摄像机122和麦克风126的阵列124。可控摄像机122能够进行摇摆、倾斜和变焦,并可以是机械的或者电子的摇摆-倾斜-变焦摄像机。在一个示例中,该可控摄像机122是Polycom PowerCam Plus,其能够从中心点开始进行大约±45度的摇摆以及+10度和-30度的倾斜。摄像单元120经由连接110向控制单元130提供s-视频(PAL或者NTSC)或者其他形式的视频信号。摄像机单元120还经由连接112响应从控制单元130传送的命令,以改变可控摄像机122的摇摆、倾斜和/或变焦。另外,摄像机单元122可包括IR接收机125,并可经由连接110将接收自IR遥控装置150的信号传送给控制单元130。\n[0025] 在一个实施例中,阵列124包括四个麦克风126。至少两个麦克风126可具有用于确定发射器单元140位置的水平布置,以控制摄像机122沿水平轴的摇摆。同样地,至少两个麦克风126可具有用于确定发射器单元140位置的垂直布置,以控制摄像机122沿垂直轴的倾斜。应该理解,可将两个麦克风126布置得基本水平以达到本领域的技术人员能够认可的使得能够进行充分的水平跟踪的可接受容差。而且,应该理解,可将两个麦克风126布置得基本上垂直以达到本领域的技术人员能够认可的使得能够进行充分的垂直跟踪的可接受容差。\n[0026] 阵列124的麦克风126响应由发射器单元140发射的超声波频谱中的超声波。在一个实施例中,阵列124的麦克风126可特别地配置用于超声波频谱内的响应,从而系统\n100可具有用于响应可听频谱内的声音的额外的麦克风,所述可听频谱通常可在大约20Hz到20,000Hz。在另一个实施例中,阵列124的每个麦克风126都可响应可听频谱,并且也可为超声波频谱提供适当的频率响应,这样,麦克风126可用于视频会议的一般音频和基于超声波180的摄像机跟踪。另外,摄像机单元120可与和视频会议系统有关的话音跟踪技术相结合使用双重用途(dual-use)的麦克风126,例如在所引用的美国专利6,980,485中公开的或者在Polycom的iPower、VSX和HDX系列产品中所使用的。\n[0027] 发射单元140具有信号发生器电路142、功率放大器143、可充电电池144和一个或者多个换能器或者扬声器146和148。如上面所简述的,发射单元140由摄像机122要跟踪的人携带或者佩戴。因此,发射器单元140可具有带子、夹子、绳套或者用于由人佩戴或者携带的其他装置(未示出)。\n[0028] 在工作时,发射器单元140产生由阵列124的麦克风126检测的超声波180。优选地,超声波180是重复的声调,其在100ms的时间间隔内扫描(sweep)24kHz到40kHz的频率,并且在声调之间具有大约100ms的短暂无声间隔。为了产生超声波180的最佳扫描声调,信号发生器电路142的采样频率可以是96kHz,并且该信号发生器电路142可包括以24.576MHz和50ppm振荡的时钟振荡器,例如,EPSON SG-710ECK24.5760MB,RALTRON CO4305-24.5760,SARONIX S1613B-24.5760T。优选地,发射器单元140具有用于单元140的数字模拟转换器的低通滤波器,并且,至少60dB的阻带衰减优选用于56kHz或者更高。过渡频带是40kHz到56kHz,并且数字模拟转换器可以是来自AKM半导体公司的AK4386。\n[0029] 发射器单元140可仅具有一个超声波换能器146,或者可具有两个或者更多个超声波换能器146和148。在任一方法中,都通过电线将超声波换能器146/148与发射器单元\n140连接在一起,并且,超声波换能器146/148可以是压电换能器(当经受电压时,压电晶体可以改变形状用于产生声音),或者磁致伸缩换能器(磁致伸缩材料将磁能转换为机械能,或者反过来转换)。在发射器单元140包括多于一个换能器146和148的实施例中,例如,演讲者可将一个换能器146佩戴在身体的前面,并且可将另一个换能器148佩戴在身体的背后。作为替换方案,换能器146和148之中的一个可以佩戴在每个肩膀上。在一个实施例中,每个换能器146和148可被同步而发射同样的超声波信号180。在替换实施例中,换能器146和148可发射完全不同的超声波信号180,对于人的身体可以关于麦克风126的阵列124进行定位的各种方式,其能够增强摄像机122跟踪人的能力。\n[0030] 当用麦克风126获得发射的超声波180时,摄像机单元120经由连接110向控制单元130传送用于每个麦克风126的超声波信号。控制单元130处理接收的信号,以确定声音所起源的发射器单元140的至少大致的位置。如下面更详细讨论的,控制单元130的软件处理该接收的信号,以定位该发射器单元140。在确定位置之后,控制单元130向摄像机单元120发送一个或者多个命令信号,以控制摄像机22至少大致地跟踪发射器单元140。\n[0031] 发射器单元140的位置确定可以是大致的,其在本领域的技术人员能够认可的使得摄像机22能够充分指向佩戴单元140的演讲者的摇摆、倾斜、和/或变焦的可接受程度之内。而且,将摄像机22指向具有发射器单元140的演讲者并且对该演讲者进行跟踪可以是大致的,其在本领域的技术人员能够认可的使得摄像机22能够捕获到该演讲者的充分的图像的摇摆、倾斜、和/或变焦的可接受程度之内。为此,至少四个麦克风126设置在可根据可接受容差改变的互相正交的两个轴上。控制单元100还可设置为仅在限定的跟踪区域内操作该系统,摄像机22将不会指向这个区域的外部。另外,控制单元100可设置为操作摄像机22,使得它提供演讲者的窄(tight)或者宽视野,并提供演讲者(即发射器位置)位于捕获图像的中间、右边或者左边的视野。\n[0032] 在演讲或者视频会议期间,例如,控制单元130控制摄像机122跟踪佩戴发射单元\n140的人。当被跟踪的人移动然后停止时,摄像机122的移动(即摇摆和倾斜)速度优选地通过首先放慢,然后停下来指向这个人来被控制。例如,摄像机122可在2秒钟的时间段内静止并指向这个人,以使得摄像机移动更平滑,并防止在这个人再次开始移动的情况下出现急动。这些参数可以是可由用户进行配置的。\n[0033] 可能存在人正在进行微小的移动,但仍在摄像机122的框或者视角内的情况。优选地,当在这种情况下时,摄像机122不以急动方式跟随这个人,并且,当这个人在摄像机\n122的视角内进行微小移动时,摄像机122意图保持静止。为了实现这一点,控制单元130可确定摄像机122的视角,并且可以将该视角与所确定的人的位置相关。根据这个相关,在开始用于移动摄像机122来跟踪这个人的命令之前,控制单元130可确定这个人是否已移动到摄像机122的框之外。另外,当这个人没有移动到摄像机122的框之外时,摄像机122不会移动,直到过去大约500ms的延迟时段为止。\n[0034] 既然已经讨论了摄像机跟踪系统100的细节,现在我们转向图2,来讨论用于控制单元130的软件。如图2所示,控制单元的软件架构200的一个实施例包括用户接口模块210、消息处理程序220、摄像机控制模块230、音频子系统240、配置模块250、存储模块\n255、串行(serial)驱动器260、音频硬件管理器265、TCP/IP模块270和现场可编程门阵列(FPGA)280。\n[0035] UI模块210经由消息处理程序220向架构200的其他模块和子系统传送命令消息串。用户接口(UI)模块210处理来自用户的对IR遥控按钮的按压,并在视频输出上覆盖文本和图形,该视频输出用于为用户显示屏幕菜单系统。例如,UI模块210可处理用户输入,以设置和恢复预设置、打开或者关闭自动跟踪、以及选择菜单模式。另外,UI模块210可在用于向用户显示的画面上产生各种警告画面、设置画面、校准画面、信息画面,以及其他视觉画面。\n[0036] 音频子系统240经由接口286、FPGA 280和音频硬件管理器驱动器265接收从摄像机的麦克风126输入的超声波。利用下面更详细讨论的技术,音频子系统240对来自麦克风126的超声波信号进行滤波和分析,以既在水平方向又在垂直方向上确定源的超声波发射器(未示出)的角位置。音频子系统240还确定从摄像机122(或者作为替换方案,与该摄像机122相邻布置的麦克风126)到发射器的大致距离。音频子系统240周期性地向摄像机控制模块230发送这个位置信息,从而该摄像机控制模块230可从而控制摄像机122。\n[0037] 摄像机控制模块230处理所有与摄像机有关的用于手动和自动操作模式的运动。\n在自动跟踪源的自动操作模式期间,摄像机控制模块230接收来自音频子系统240的与该源关联的位置信息,并将这个位置信息转换为摄像机运动命令。然后,摄像机控制模块230经由串行驱动器260、FPGA 280和接口284向该摄像机122发送摄像机运动命令。该命令优选获得平滑的摄像机运动,以跟随该目标源。当使用可选接口282用于外部装置(例如视频会议单元160)时,摄像机控制模块230可经由另一个接口284将接收自该外部装置160的摄像机串行命令转发给摄像机122,并且还可将摄像机120的响应返回给外部装置160。\n[0038] 理解了用于控制单元的软件后,我们现在转向图3A,讨论相对于摄像机跟踪系统\n300的部件示出的摄像机单元310的优选实施例。如前所述,摄像机单元310与控制单元\n360进行通信连接。另外,控制单元360可以也可以不与外部装置(未示出)相连,所述外部装置例如视频会议单元、视频监视器、计算机等。\n[0039] 摄像机单元310具有用于各种部件的外壳312、与外壳312相连的悬臂(boom)318、以阵列布置的多个麦克风接收机320、位于外壳312之上的可移动摄像机340,以及其他未示出的部件。\n[0040] 三个麦克风接收机320(即接收机322、324和326)水平布置在外壳312上。另外,其中一个麦克风接收机320(即接收机328)位于悬臂318中,并且相对于外壳312上的中央麦克风接收机324垂直布置。超声波换能器350在空间上关于摄像机单元310的位置可利用笛卡儿坐标系(X,Y,Z)进行表征。超声波换能器350发射由麦克风接收机320拾取的超声波352。至少部分由控制单元360执行的处理确定超声波换能器350的位置,并移动摄像机340以跟踪超声波换能器350的位置。利用下面讨论的位置确定算法,由水平布置的麦克风接收机322、324和326接收的超声波352的相位差确定超声波换能器350相对于摄像机单元310的水平位置,该水平位置与摄像机340的摇摆位置P相对应。由垂直布置的麦克风接收机324和328接收的超声波352的相位差确定该超声波换能器310相对于摄像机单元310的垂直位置,该垂直位置与摄像机340的倾斜位置T相对应。在一个实施例中,利用下面讨论的位置确定算法,摇摆和倾斜位置可达到大约0.125度的精度。\n[0041] 此外,可利用由水平布置的麦克风接收机322、324和326接收的超声波352的波阵面曲率来确定超声波换能器350到摄像机单元310的距离,该距离与摄像机340的变焦位置Z相对应。除此之外或者作为替换方案,可利用其他技术来确定超声波换能器350到摄像机单元310的距离。如之后在附加实施例中所讨论的,例如,可利用射频(RF)信号和无线麦克风信号。可利用本领域中已知的技术来控制摄像机340的距焦。\n[0042] 在图3B中,图示了用于图3A的摄像机跟踪系统300的信号链。在该信号链中,在佩戴或者携带着换能器350的目标源(即用户)相对于麦克风接收机320移动时,超声波换能器350发射超声波352。由每个麦壳风接收机320接收的超声波352的信号然后被发送到控制单元360,从而,控制单元360接收四个信道的输入信号。然后,可具有一个或者多个数字信号处理器的控制单元330处理这些信号(块362)。这个处理的一些详情将在下面参照图4A-4B进行讨论。\n[0043] 然后,控制单元360利用位置大致确定算法来确定超声波换能器350相对于接收机320的垂直位置、水平位置和距离(例如X,Y,Z)(块364)。位置确定算法将在下面参照图5进行详细讨论。利用所确定的位置(X,Y,Z),控制单元360配置摄像机控制命令(块\n366),并将那些命令发送给摄像机(块368)。为了配置摄像机控制命令,控制单元360可将所确定的超声波换能器350的位置(例如X,Y,Z)转换为摇摆、倾斜和变焦信息,用于摄像机340的致动装置、伺服装置或者类似装置342。摄像机组件330接收这些命令,并利用它们使摄像机340指向所确定的超声波换能器350的位置(块344)。\n[0044] 用于所公开的跟踪系统350的超声波换能器350优选为具有较宽的带宽、良好的灵敏度、低失真以及小厚度的压电超声波换能器。在一个实施例中,例如,在24kHz到40kHz的频率范围内,超声波换能器350具有合理平坦的频率响应,但是,要理解的是,摄像机跟踪系统300并不限于24kHz到40kHz的带宽。作为合理平坦,例如,该频率响应可在其给定水平的±5%以内波动,或者在取决于实施方式的某种其他适当的容差内波动。而且,24kHz到40kHz的带宽的限制可通过加上或者减去几kHz而不同,或者通过加上或者减去取决于实施方式的某种其他适当的量而不同。\n[0045] 超声波接收机320优选至少在直到40khz都具有基本上平坦的频率响应。用于所公开的摄像机跟踪系统300的适当的超声波接收机320是来自Panasonic的WM61B和WM64接收机,这些接收机在直到40kHz都具有基本上平坦的频率响应。频率响应有多平坦,或者对于给定实施方式来说需要多平坦,都属于得益于本公开的本领域技术人员的相关技能。\n[0046] 由控制单元300执行的块362中的处理优选包括对来自麦克风接收机320的信号的下采样和其他滤波操作,以改善对这些信号的后续处理阶段。图4A所示的是用于将超声波信号降低到可听范围和改善信号属性的下采样和滤波操作400的方块图。起初,超声波换能器(350)发射在24kHz到40kHz范围内扫描的超声波。在第一阶段401,这个扫描声调由每个麦克风接收机(320)拾取。使用这个扫描声调而不是带限白噪声信号的一个优点是,这个扫描声调信号使得超声波换能器(350)对人来说更不容易由于非线性失真而被听到。另一个优点是,使用该扫描声调比白噪声信号产生更高的信噪比。在这个第一阶段401中,对由每个麦克风接收机(321)拾取的24kHz到40kHz的扫描声调信号以96kHz进行数字采样,如图4B中的曲线图410所示。\n[0047] 由于每个麦克风接收机(320)都拾取这个扫描声调,所以控制单元360可对来自每个麦克风接收机(320)的信号分别执行某种处理,并且可对来自所有接收机(320)的信号总和执行附加处理。但是,在随后的阶段中,优选对来自每个接收机(320)的信号分别执行处理。直到初始处理完成,才将信号相加在一起。\n[0048] 在第二阶段402中,控制单元(360)的2-1(two-to-one)重采样器和调制模块将采样后的扫描声调信号的频谱从24~48kHz平移到0~24kHz,并产生48kHz的输出采样频率,如图4B中的曲线图420所示。在第三阶段403中,控制单元(360)的3-2重采样器产生频率范围从0kHz到16kHz的信号,如图4B的曲线图430所示。3-2重采样器的输出携带与在阶段401的原始接收信号相同的信息,但是,在该阶段403的输出处于低得多的采样频率32kHz,这有助于减少后面处理期间所要求的计算。\n[0049] 在第四阶段404,在一定的时间间隔期间,匹配滤波器将每个扫描声调信号中的能量进行压缩,从而对接收机(320)的每个信号来说,该能量集中在一个脉冲状波形中。这样,匹配滤波能够增强信噪比,并且能够增大系统(300)的可能跟踪范围。在本技术领域中匹配滤波技术是已知的,因此就不在这里进行详细描述了。\n[0050] 匹配滤波阶段404之后的理想输出信号是脉冲波形或者非常接近脉冲的波形。对于下采样和滤波操作400来说,由于在采样频率为96kHz时,扫描声调仍是一个带限信号,因此,存在取决于初始接收信号的相位的六种可能的脉冲波形,这导致当进行下采样时具有多相位输出。\n[0051] 在第五阶段405,反射消除算法将阶段404中的匹配滤波之后的可能由反射引起的脉冲状波形输出的一些部分进行消除。反射消除算法优选保持基本上对应于到超声波换能器(350)的直接路径的信号脉冲,并消除该信号在该脉冲之后特定时间量的任何部分。\n在一个示例中,反射消除可以保持0.5ms的信号脉冲,并且可以将这个脉冲之后大约39ms的时间清零(zero-out)。优选地,由于时域信号的动态范围可变,所以反射消除算法使用动态阈值来识别与到换能器(350)的直接路径对应的信号脉冲。当超声波换能器(350)不时地在大房间内到处移动,并且相对麦克风接收机(320)翻转时,会导致动态范围随时间变化。反射消除算法首先跟踪刚刚过去的短时间内的信号的最大值,并将动态阈值设置为那些最大值的大约八分之一。\n[0052] 除了反射消除之外,可优选对从匹配滤波阶段404接收的信号波形进行均衡。例如,由于不理想的频率响应和其他原因,来自匹配滤波阶段404的输出信号可能比脉冲波形更加复杂。为了使来自匹配滤波阶段404的输出信号更加像脉冲,优选对这些信号执行波形均衡,以补偿超声波换能器(350)和接收机(320)的不理想的频率响应。\n[0053] 此外,要注意的是,麦克风接收机(320)还可能拾取背景中的超出底噪声20到\n30dB的一些伪超声波声调。背景噪声可能由周围的电子设备,例如台式计算机、计算机、电视机等产生,并且会在一定程度上降低测量精度。在用于消除背景噪声的第六阶段406中,控制单元(360)优选利用背景噪声估计器和自适应陷波滤波器(notch filter),以消除一些背景噪声。在操作期间,估计器通过统计分析接收的信号自动检测超声波换能器(350)是开还是关从而发射超声波。估计器以各种时间间隔捕获信号以估计背景噪声水平。这个过程可能仅花费大约一秒钟。然后,优选使用自适应陷波滤波器来消除至少一些背景声调。\n[0054] 一旦执行了下采样和其他滤波操作400,将来自麦克风接收机(320)的处理过的信号输入到位置确定算法500中。简要地脱,位置确定算法500估计超声波换能器(350)位于多个可能位置中的候选位置的最大似然。在这个方法中,初始假设超声波换能器(350)的位置在其环境(例如房间)中的很多个可能候选位置中的每一位置。对每个候选位置来说,对来自麦克风接收机(320)信号利用延迟求和(delay-sum)操作关于彼此进行适当的延迟并相加在一起。结果产生对于任何可用频率的最大可能波束能量。\n[0055] 然后,跨越每个频率和每个麦克风接收机(320)使用白化滤波器\n(whiteningfilter),从而,在加到总能量之中时,每个频率和每个接收机(320)都同等重要。然后,在各个候选位置中搜索产生所有假定候选位置的最大波束能量的一个候选位置。\n这个候选位置被声明作为换能器(350)的估计位置。通常,对来自麦克风接收机(320)的采样进行求和需要的各种时间延迟是小数的值,并且可能存在几百或者几千个要搜索的候选位置。优选地,为了减小计算开销,搜索候选位置利用计算高效的过程。\n[0056] 图5A以流程图的形式示出用于估计超声波换能器(350)的候选位置的位置确定算法500的一个实施例。算法500接收四个信道的信号作为输入(块502)。在这个实施例中,每个信道对应于来自四个麦克风接收机(320)的所接收的超声波信号(352)的下采样和滤波的部分。接下来,算法500确定水平信道(即每个水平布置的麦克风接收机(320))的产生最大归一化波束能量的相位差(块504)。参照图5B对(块504)的步骤进行更详细的讨论。然后,利用这个所确定的相位差确定换能器(350)的水平位置,并从而确定摄像机(340)的摇摆位置(块506)。\n[0057] 然后,算法500通过对垂直接收机320重复图5B的步骤确定垂直信道(即每个垂直布置的麦克风接收机(320))的产生最大归一化波束能量的相位差(块508)。然后,利用这个确定的相位差来确定换能器(350)的垂直位置,并从而确定摄像机(340)的倾斜位置(块510)。\n[0058] 随后,算法500计算在水平布置的麦克风接收机(320)处检测到的超声波(352)的波阵面曲率(块512),并利用这个曲率计算换能器(350)的距离,并从而计算摄像机(340)的变焦位置(块514)。最后,控制单元(360)命令摄像机(340)指向所确定的发射器(350)的位置(块516)。\n[0059] 在图5B中,示出的步骤550用于确定产生最大归一化波束能量的信道相位差。首先,对每个信道执行滤波分析(块552)。然后在所有信道的每个子频带中计算波束能量的和(块554)。将加和的能量与预定的阈值进行比较(块556),以确定频带的数目是否大于需要的数目(块558)。如果不大于,那么由于可能不存在足够的要处理的信号信息而完全绕过该子程序(块560)。\n[0060] 如果频带的数目大于需要的数目,那么跨越这个频带和信道对子频带信号进行归一化(块562)。在一个相位角范围内执行扫描搜索,以得到在多个第一相位角的波束能量(块564)。根据这个搜索,找到与最大归一化波束能量相应的第一相位角(块566)。然后,在关于前面找到的第一相位角的更精确的相位角的角范围内执行扫描搜索,以得到多个第二相位角的波束能量(块568)。根据这个更精确的搜索,找到与最大归一化波束能量对应的第二相位角(块670)。然后,在最后的块572,根据是正在分析水平布置还是垂直布置,将这个第二相位角返回到图5A中的块504或者块508。\n[0061] 现在我们转到对位置确定算法的更详细的讨论。在图5B的块552中,为了在每个信道上执行滤波分析,将超声波接收机信号的M个信道馈送给相等数目的模拟数字(A/D)转换器。这些A/D转换器将超声波接收机信号转换为数字采样。对于每个超声波接收机信道M来说,累积N个采样的块用于处理。在一个优选实施例中,采样数目N为640。所得的输出数据用下式表征:\n[0062] Xm(n)(1)\n[0063] 其中m=0,1,...,M-1(M是信道数),n=0,1,...,N-1(N是每个信道的采样数)。\n接下来,将M个块的N个采样馈送给交叠相加滤波器组,在其中一个实施例中,所述交叠相加滤波器组为每个信道产生N个复频率。因此,时域的超声波接收机信号被转换为滤波器组输出,其可表征为:\n[0064] Hm(k)←Xm(n)(2)\n[0065] 滤波器组输出Hm(k)是具有实部和虚部的复数。这里,k是频带,其可解释为频率盒(frequency bin)编号。每次在预定的时域中出现N个采样的块时,产生一组新的滤波器组输出Hm(k)。如果对于给定的超声波接收机Xm(n)的输入信号是滤波器组输出Hm(k)的、频率以称为k′的一个频带为中心的正弦波时,那么,那个中心频带k′的滤波器组输出Hm(k′)的大小会较大,而k≠k′的所有其他Hm(k)的大小都较小。\n[0066] 如上所述,在块554中,计算出所有信道的每个子频带中的加和的波束能量。首先将信号归一化。等式(3)计算归一化的信号,使得在计算波束能量时将仅使用复信号的相位角:\n[0067] \n[0068] 接下来,在每个频域上执行上面隐含提到的延迟求和(delay-and-sum)操作。如果子频带足够窄,可将其视为正弦,从而可通过将复信号与相量ejθ相乘来近似时间延迟:\n[0069] F′m(k)=ejθFm(k)(4)\n[0070] 其中θ是正弦波被延迟希望的时间量时会出现的适当相位角。对于特定频率子频带k来说,延迟求和操作通过如下式子计算:\n[0071] \n[0072] 这里,θm表示在换能器(350)的假设位置给定为位置(x,y,z)处时,使Gz,y,z(k)的加和值的大小最大的特定相位角。由于声音到达麦克风接收机(320)的到达时间不同,等式(5)尝试补偿这些不同的时间,从而可将不同的超声波接收机信号相加,好像这些信号正好在相同的时间到达所有的麦克风接收机(320)(即这些信号不会异相到达)。\n[0073] 为了计算会使Gx,y,z(k)的加和值的大小在换能器(350)的假设位置给定为位置(x,y,z)处时最大的等式(5)的适当相位角θm,假设换能器源(350)在笛卡儿坐标系中的位置为Xs,Ys,Zs,并且M(例如4)个麦克风接收机(320)位于位置Xm,Ym,Zm处。那么,根据下式来计算换能器(350)和第m个麦克风接收机(320)之间的距离:\n[0074] \n[0075] 通过选择一个麦克风接收机(320)作为参考,例如m′,参考接收机m′与其他接收机之间的距璃D的差表征为:\n[0076] Δm=Dm-Dm′(7)\n[0077] 另外,在参考接收机m′和其他接收机之间,对于频带k的给定频率盒来说,相位角的差用下式表征:\n[0078] φm=-2π(24,000+kb)Δmv (8)\n[0079] 其中,b是该子频带滤波器的每个频率盒的赫兹数,即该子频带滤波器的中心频率为24,000+kb赫兹。数字24,000由前面参照图4A-4B讨论的频谱平移推导出。项Δm是以英寸为单位的接收机(320)之间的差分距离,v是常数,其与声音速度的倒数(1/(13.54*1000))成正比。为了抵消等式(8)中的相位移动,等式(5)中的θm被设为:\n[0080] θm=-φm(9)\n[0081] 通常,对频带k的每个频率盒和每个超声波接收机m来说,等式(9)中的θm将是不同的。\n[0082] 对于从最低频率盒到最高频率盒(即,跨越从24kHz到40kHz的范围,其被转化为\n0到639的频率盒编号)范围内的频带k,找到等式(5)中的换能器(350)的每个假设位置Gx,y,z(k)。最后确定随后的位置加权函数:\n[0083] \n[0084] 确定产生等式(10)中的位置加权函数W(x,y,z)的最大值的换能器(350)的候选位置(x,y,z),将其作为换能器(350)的估计位置。\n[0085] 为了既减小计算开销,又改进检测精度,仅有时候(例如每个P块)计算等式(10)中的位置加权函数W(x,y,z)。在一个优选实施例中,P为5,其对应于大约每0.1秒进行一次计算。此外,频率子频带数据Hm(k)可在时间和频率上进行修剪,使得只使用在最后的P个块中出现的最有用的数据用于计算在P个块的时间段末尾的位置加权函数W(x,y,z)。\n[0086] 因此,现在将讨论转到用于修剪频率子频带数据以及执行仅在有时候计算位置加权函数W(x,y,z)的一些步骤。在P个块的时间段中,对频带k的每个频率盒来说,可通过如下式子表征来自M个超声波接收机(320)的数据:\n[0087] Hmp(k)(11)\n[0088] 其中p-0,1,...,P-1,m=0,1,...,M-1。\n[0089] 为了找到频带k的给定频率盒的假设位置G(x,y,z),在一个特定时间段p′内选p p 2\n择Hm′(k),其中,对单一超声波接收机m′和上标p′来说,大小‖Hm′ ′(k)‖ 在p=\n0,1,...,P-1中为最大,其中p′可在0到P-1范围内变化。对于这个频率盒,将这个大小值与背景噪声的大小进行比较。如果这个大小在强度上与背景噪声过于接近,那么,对于所p\n有的m,将归一化信号Fm′(k)简单地设为0,这是因为包括这个数据仅会简单地使结果更加错误。这样,对于给定频率盒k,假设的位置用下式表征:\n[0090] \n[0091] 然后将等式(12)用在等式(10)中,以找到位置加权函数W(x,y,z)的最大值。对频带k的一些信号能量接近噪声能量的频率盒来说,则位置Gx,y,z(k)将为0。如果非零频率盒的数目太少,则由于最后P个块的数据可能仅归因于噪声,因此绕过整个计算。\n[0092] 在等式(12)中,相量项ejθm是超越函数,并且具有实部和虚部,它们对于每个频率盒k和每个假设的源位置x,y,z来说是不同的。因此,以控制单元(360)的运行时间计算它是低效的。优选地,对值进行预先计算,并保存在存储器的一个或者多个查找表中,这样控制单元(360)可在运行时间期间访问这些表以执行计算。\n[0093] 在用于预先计算查询表的一个实施例中,时间块的大小可以是N=640,频率盒的数目也可以为640,从低到高的频率范围可以是所有640个频率,超声波接收机的数目M可以为4,假设的源位置的数目可为8640(即180度在48种距离上以1/4度的增量增加)。在所得的表中条目的数目将为:\n[0094] 条目数=2×640×16×8640=176,947,200(13)\n[0095] 为了提供16位的精度,保存这个表所需的存储器将为大约350兆字节,在存储器的大小方面,这对典型的实施方式来说可能是被禁止的。\n[0096] 为了减小表的大小,等式(12)中的相量项ejθm的实部可用下式表征:\n[0097] cos(θm)=cos(2π·kbΔmv)和cos(θm)=cos(kΔmc)(14)\n[0098] 其中,对于所有k和m来说c是常数。由于余弦函数对于自变量的每2π重复,因此能够通过首先计算乘积kΔmc,将这个乘积以2π为模计算,然后在余弦函数表中查找结果来高效地计算cos(θm)。\n[0099] 不是独立地计算等式(14),而是两个预先计算的查询表可存储在控制单元(360)的存储器中,并且可用于减少计算。产生第一个预先计算的查找表D(r,m)用于摄像机跟踪系统(300),其中r是唯一指定3维空间中换能器(350)的假设位置(x,y,z)的索引,m是超声波接收机索引。对于所有的r和m=0,1,...,M-1,这个预先计算的查找表D(r,m)的条目可表征为:\n[0100] D(r,m)=b×(0.001/13.54)×Δr,m×512(15)\n[0101] 在等式(15)中,b=(频率盒的中心频率)/k,Δr,m是对于索引为r的源位置以英寸为单位的麦克风m和参考麦克风之间的信号路径差。\n[0102] 还产生第二个预先计算的模数余弦表cos_table(i),并定义为:\n[0103] cos_table(i)=cos(π×i/256),其中i=0,...,512(16)\n[0104] 利用这些表D(r,m)和cos_table(i),可利用下式得到用于换能器(350)的候选位置r以及频率盒k的cos(θm)的值:\n[0105] cos(θm)=cos_table[0x1FF & int(k×D(r,m))](17)\n[0106] 其中&是“与”函数(利用0x1FF进行掩蔽),以及其中“int”意思是“取整为最接近的整数”。\n[0107] 因此,控制单元(360)优选利用这两个表D(r,m)和cos_table(i)来计算方程(14)的cos(θm)的解。在本示例中,D(r,m)表具有8640×4或者34,560个位置,cos_table(i)表具有512个位置。为了计算sin(θm),使用与方程(17)相似的过程产生另一个表,称作sin_table(i),其具有512个位置。这样,这些表总共有35,584个条目,这对于摄像机跟踪系统的给定实施方式来说可能是一个实际的大小。\n[0108] 然后,将通过查找表确定的cos(θm)和sin(θm)的所得值用于估计方程(12)中jθ\n的相量项e m,以计算给定频率盒k的候选位置Gx,y,z(k)。然后,将候选位置Gx,y,z(k)的值用于位置加权函数W(x,y,z)方程(10)中,以计算候选位置的位置权重。最后,将产生方程(10)的位置加权函数W(x,y,z)的最大值的位置(x,y,z)声明作为换能器(350)的估计位置。最终,可将换能器(350)的这个估计位置用于用摄像机单元(310)的摄像机跟踪源。\n[0109] 如先前在图5B的块564中提到的减少计算所述,进行第一搜索,以利用上面讨论的方程和技术确定在第一多个候选位置处的波束能量。优选地,这个第一搜索是粗略的,以减小计算开销,使得可以在块566确定换能器(350)的至少大致位置的粗略估计。这个第一粗略搜索之后是块564中的集中在粗略估计周围的更加精确的第二搜索,以利用上面讨论的方程和技术求得具有最大归一化波束能量的精确位置。这些搜索既对麦克风接收机(320)的水平布置执行,也时接收机(320)的垂直布置执行,以分别确定换能器(350)相对于摄像机单元的摇摆和倾斜角的位置。然后,摄像机单元(310)的摄像机可以被操作为指向(即摇摆、倾斜和变焦)所确定的位置。\n[0110] 转到图6A-6B,将讨论本公开的摄像机跟踪系统的一些另外的和作为替换的实施例。通常,前面讨论的摄像机跟踪系统的实施例已描述了摄像机单元,例如图3A的单元\n310,其具有四个麦克风接收机320。从接收机320的跟踪范围可以由它们在摄像机单元310上有多接近来确定。因此,摄像机单元310的一个实施例可具有增加的大小,使得麦克风接收机320可分隔得更远。在另一个实施例中,可利用超过4个麦克风接收机320,例如8个或更多,使得接收机320能够覆盖更大的面积,例如大约75×75英尺的面积。除了利用超声波来跟踪摄像机之外,超声波摄像机跟踪系统的实施例还可利用话音跟踪技术,例如美国专利No.6,980,485中公开的技术,其内容在此引用作为参考。\n[0111] 此外,公开的摄像机跟踪系统的其他实施例可利用具有在较大会议地点中位于彼此更远的位置的多个远程接收机的超声波接收机系统。例如,图6A示出摄像机跟踪系统\n600A的一个实施例,其具有连同摄像机单元610、控制单元630和发射器单元640的超声波接收机系统620。超声波接收机系统620具有3个或者更多个围绕房间布置的接收机单元\n622、624、626,与在控制单元630上具有小的麦克风阵列相反。接收机单元622、624、626可以彼此之间具有固定的计算出的距离,并或使用与控制单元630的无线或者有线通信。\n[0112] 在一个实施例中,来自与发射器单元640相连的一个或者多个RF装置650的射频(RF)信号可与来自换能器642、644的超声波进行同步,从而接收机单元622、624、626可确定它们到发射器640的距离。RF信号和超声波与位于房间周围的多个接收机单元622、624、\n626的同步使用可带来发射器640的更精确的位置计算。例如,与超声波信号同步的RF信号可改善换能器642、644的距离检测精度,从而改善摄像机单元610的自动变焦。\n[0113] 在一个实施例中,RF无线麦克风可集成在发射器单元640中,并且可传送RF信号,该RF信号不仅用于视频会议或者演讲的话音,而且还用于跟踪和距离检测。图7A示出发射器单元700A,其具有一个或者多个换能器702、704、RF发射机710和集成麦克风720,该集成麦克风720可以为佩带式麦克风。RF信号可用于传送演讲者的话音,还可用于检测发射器单元700A的距离。具有集成佩带式麦克风720还允许多种其他替换方案。例如,图6A中的系统600A可基于话音麦克风选通技术(voice mic gating technique),结合来自当集成佩戴式麦克风(720)检测到演讲者的话音时启动的换能器642、644的超声波来引导摄像机单元610的摄像机。\n[0114] 如图6A所示,演讲者可在前部和背部具有换能器642、644,从而摄像机跟踪系统\n600A可在演讲者转身的情况下跟踪演讲者。同样在图6A所示的替换实施方案中,演讲者可将换能器642、644佩戴在每个肩膀上,从而摄像机跟踪系统600A可在演讲者转身的情况下跟踪演讲者。\n[0115] 在前面讨论的实施例中,参照跟踪佩戴超声波发射器单元的一个人描述了所公开的摄像机跟踪系统。在所公开的系统的其他实施例中,多个参与者可以佩戴发射器单元,并且可以利用各种技术来控制确定哪个参与者被跟踪。例如,图6B示出与多个发射器单元\n640-A、640-B一起使用的摄像机跟踪系统600B。如前所述,系统600B具有摄像机单元610、超声波接收机620和控制单元630。多个发射器单元640-A、640-B的每个都包括至少一个超声波换能器642。自动或者手动地激活发射器单元640-A、640-B以发射超声波,从而摄像机单元610将跟踪带有激活的换能器642的演讲者。\n[0116] 在一个实施例中,可在演讲者讲话时激活发射器单元640-A、640-B。例如,可在集成麦克风720拾取到演讲者讲话时激活图7A中的发射器单元700A。在另一个实施例中,图7B所示的发射器单元700B可能在连接头730上具有按钮等,演讲者可按下这个按钮等来激活单元700B,并让换能器702、704发射超声波。\n[0117] 返回图6B,超过一个的发射器单元640-A、640-B可同时积极发射。例如,如果当佩戴式麦克风检测到参与者讲话时,发射器单元640-A、640-B可被激活以发射超声波。当有两个或者更多个参与者同时讲话时,在一个实施例中,控制单元630可控制摄像机单元610来将具有激活的发射器单元640-A、640-B的这两位演讲者摄入框内。\n[0118] 在作为替换的实施例中,发射器单元640-A、640-B能够利用RF或者IR信号彼此进行通信,或者与控制单元630进行通信,从而在一个时间只有一个发射器单元640-A或者\n640-B发射超声波。在一个示例中,激活的发射器单元640-A可向另一个发射器单元640-B发送RF信号,然后发射器单元640-B可以停止发射超声波。\n[0119] 另一个示例中,系统600-B可包括与控制单元630相连的RF单元670。当演讲者激活他的发射器单元640-A时,可从发射器单元640-A上的RF发射机(未示出)向RF单元670发射RF信号,从而控制单元630知道将要跟踪这个特定的演讲者。然后,控制单元\n630可将来自RF单元的RF信号转递给另一个发射器单元640-B,使其停止发射超声波。这样,在一个时间只有一个发射器单元640-A会产生超声波,并且控制单元630不需努力区别来自两个或者更多个发射器单元640的超声波。除了RF信号之外,IR信号或者其他信号也可用于通信。\n[0120] 在又一个实施例中,控制单元630能够根据发射的超声波的特性来区别来自发射器单元640-A、640-B的多个超声波源。例如,每个发射器单元640可仅在与其他发射器单元不同的频率范围内发射超声波,从而可将单元640彼此隔离开。作为替换方案,每个发射器单元640可以在与其他的发射器单元不同的时间间隔发射超声波,使得单元640可以彼此隔离开。当多个发射器640-A、640-B同时工作时,即使两个发射器单元640-A、640-B可能连续发射超声波,控制单元630可能需要接收一个RF信号,该RF信号用于识别哪个发射器单元640被激括以便跟踪。\n[0121] 在又一个实施例中,可在同一个环境中使用多个独立的跟踪系统600B,一个跟踪系统用于跟踪一个演讲者,另一个跟踪系统用于跟踪另一个演讲者。每个独立的系统600B都可以具有使用相移键控(PSK)/频移键控(FSK)的不同种子(seed)来区别与它们相关的超声波。\n[0122] 前述的优选和其他实施例的描述并不旨在限制或者局限由申请人构想的发明构思的范围或者应用。所提及的术语,例如垂直、水平、右、左等都旨在表明在某个方位中的相对方向,并且也可以指在其他方位中的相对方向。应该理解,根据本公开的教导,可对这里公开的实施例进行改进,并且可实施另外的实施例。除了在视频会议中使用摄像机来跟踪演讲者之外,例如,本公开的摄像机跟踪系统和相关方法也可用于其他实施方式,例如控制舞台表演的聚光灯、控制其他环境的摄像机等。以公开在此包含的发明构思为交换,申请人要求后附的权利要求所提供的所有专利权。因此,后附的权利要求包括所有全部范围的改进和替换,这些改进和替换都在随后的权利要求或者其等同物的范围之内。
法律信息
- 2019-10-18
未缴年费专利权终止
IPC(主分类): H04N 7/15
专利号: ZL 200710169136.5
申请日: 2007.10.19
授权公告日: 2012.06.27
- 2012-06-27
- 2008-11-26
- 2008-10-01
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| | 暂无 |
1996-06-14
| | |
2
| | 暂无 |
1997-08-06
| | |
3
| |
2004-03-03
|
2003-06-27
| | |
4
| |
2006-06-07
|
2004-03-19
| | |
5
| | 暂无 |
1996-03-27
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2014-07-18 | 2014-07-18 | | |
2 | | 2014-07-18 | 2014-07-18 | | |