著录项信息
专利名称 | 向用户通知其视线外的他人作出的姿势的方法与系统 |
申请号 | CN200710148709.6 | 申请日期 | 2007-09-06 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2008-03-12 | 公开/公告号 | CN101141611 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04N7/15 | IPC分类号 | H;0;4;N;7;/;1;5;;;H;0;4;L;1;2;/;1;8查看分类表>
|
申请人 | 国际商业机器公司 | 申请人地址 | 美国纽约阿芒克
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 国际商业机器公司 | 当前权利人 | 国际商业机器公司 |
发明人 | 雅各布·C·艾伯森;肯尼思·C·阿诺德;史蒂文·D·戈德曼;迈克尔·A·保利尼;安东尼·J·塞萨 |
代理机构 | 北京市柳沈律师事务所 | 代理人 | 郭定辉;黄小临 |
摘要
一种姿势使能的电子通信系统,其向用户通知由参与通信会话的其他用户作出的姿势。该系统捕获参与电子通信会话的多个用户中的第一用户的三维运动,其中使用瞄准第一用户的至少一个图像捕获设备来确定三维运动。该系统使用所捕获的运动来识别三维对象属性流,然后通过将所识别的三维对象属性流与多个电子通信姿势定义进行比较来识别表示三维对象属性流的具体的电子通信姿势。响应于从多个电子通信姿势定义中识别具体的电子通信姿势,该系统向参与电子通信会话的用户传输与所识别的电子通信姿势相对应的电子对象。
1.一种用于支持多个电子通信会话的电子通信服务的方法,该方法用于向参与电子通信会话的多个用户通知由所述多个用户中的至少一个作出的姿势,该方法包括:
捕获参与电子通信会话的多个用户中的第一用户的三维运动,其中使用瞄准所述第一用户的至少一个图像捕获设备来确定所述三维运动;
使用所捕获的运动来识别三维对象属性流;
通过将所识别的三维对象属性流与多个电子通信姿势定义进行比较,来识别表示所述三维对象属性流的具体的电子通信姿势;以及
响应于从所述多个电子通信姿势定义中识别所述具体的电子通信姿势,向参与电子通信会话的所述多个用户中的至少一个传输与所识别的电子通信姿势相对应的电子对象。
2.如权利要求1所述的方法,其中捕获第一用户的三维运动还包括使用立体视频捕获设备来捕获所述三维运动,以识别并跟踪具体的三维运动。
3.如权利要求1所述的方法,其中捕获第一用户的三维运动还包括使用至少一个立体视频捕获设备和至少一个通过传感器激活的设备来捕获三维运动,以检测所检测的运动对象在三维运动中的深度。
4.如权利要求1所述的方法,其中捕获第一用户的三维运动还包括:当第一用户通过主动说话和主动打字中的至少一个主动参与电子通信会话时,捕获所述第一用户的三维运动。
5.如权利要求1所述的方法,其中识别表示所述三维对象属性流的具体的电子通信姿势还包括:计算所捕获的三维运动表示在具体的电子通信姿势中定义的具体姿势的百分比可靠度。
6.如权利要求5所述的方法,还包括调节所述电子对象的至少一个输出特性以表示所述百分比可靠度。
7.如权利要求1所述的方法,其中向参与电子通信会话的多个用户中的至少一个传输与所识别的电子通信姿势相对应的电子对象还包括:在所述电子通信会话中传输所述电子对象作为第一用户的通信输入。
8.如权利要求1所述的方法,其中向参与电子通信会话的多个用户中的至少一个传输与所识别的电子通信姿势相对应的电子对象还包括:将所述电子对象作为命令传输给触觉可察觉设备,以输出表示所识别的电子通信姿势的具体的触觉可察觉输出模式。
9.如权利要求1所述的方法,其中向参与电子通信会话的多个用户中的至少一个传输与所识别的电子通信姿势相对应的电子对象还包括:
对于所述多个用户的每一个,存取单独的用户简档,其中每个单独的用户简档包括对用于电子通信会话的姿势对象的多个类别中的姿势对象的具体类别的至少一个偏好,其中所述姿势对象的多个类别包括文字、具体形象、图形、音频以及触觉可察觉反馈中的至少一个,其中所述偏好基于由用户使用的用于通信会话的具体通信设备、通信会话的类型以及通信会话中的其他用户的身份中的至少一个因素;
对于每个用户,从用于所识别的电子通信姿势的多个姿势对象的数据库中选择被分配给所述姿势对象的具体类别的单独的姿势对象,所述姿势对象的具体类别由用户在单独的用户简档中指定;以及
向所述多个用户中的每一个传输为每个用户选择的单独的姿势对象。
10.一种用于向参与电子通信会话的多个用户通知由所述多个用户中的至少一个作出的姿势的系统,该系统包括:
姿势处理系统,包括通信连接到网络的至少一个计算机系统;
所述姿势处理系统还包括:
用于捕获参与电子通信会话的多个用户中的第一用户的三维运动的装置,其中使用瞄准所述第一用户的至少一个图像捕获设备来确定所述三维运动;
用于使用所捕获的运动来识别三维对象属性流的装置;
用于通过将所识别的三维对象属性流与多个电子通信姿势定义进行比较来识别表示所述三维对象属性流的具体的电子通信姿势的装置;以及
响应于从所述多个电子通信姿势定义中识别所述具体的电子通信姿势,用于向帮助实现所述电子通信会话的至少一个电子通信服务提供者服务器传输所述具体的电子通信姿势的装置,其中所述电子通信服务提供者服务器向所述多个用户的至少一个传输与所识别的电子通信姿势相对应的电子对象。
11.如权利要求10所述的系统,其中所述用于捕获第一用户的三维运动的装置还包括:用于使用立体视频捕获设备来捕获所述三维运动以识别和跟踪具体的三维运动的装置。
12.如权利要求10所述的系统,其中所述用于捕获第一用户的三维运动的装置还包括:使用至少一个立体视频捕获设备和至少一个通过传感器激活的设备来捕获三维运动,以检测所检测的运动对象在三维运动中的深度的装置。
13.如权利要求10所述的系统,其中所述用于捕获第一用户的三维运动的装置还包括:当所述第一用户通过主动说话和主动打字中的至少一个主动参与所述电子通信会话时,捕获所述第一用户的三维运动的装置。
14.如权利要求10所述的系统,其中所述用于识别表示所述三维对象属性流的具体的电子通信姿势的装置还包括:用于计算所捕获的三维运动表示在具体的电子通信姿势中定义的具体姿势的百分比可靠度的装置。
15.如权利要求14所述的系统,还包括用于调节所述电子对象的至少一个输出特性以表示百分比可靠度的装置。
16.如权利要求10所述的系统,其中所述至少一个电子通信服务提供者服务器包括用于向所述参与电子通信会话的多个用户中的至少一个传输与所识别的电子通信姿势相对应的电子对象的装置,其中所述电子对象是所述电子通信会话中的第一用户的通信输入。
17.如权利要求10所述的系统,其中所述至少一个电子通信服务提供者服务器包括:用于向参与电子通信会话的多个用户中的至少一个传输与所识别的电子通信姿势相对应的电子对象的装置,其中所述电子对象是对于触觉可察觉设备的、用来输出表示所识别的电子通信姿势的具体的触觉可察觉输出模式的命令。
18.如权利要求10所述的系统,还包括:
所述至少一个电子通信服务提供者服务器包括对于所述多个用户的每一个存取单独的用户简档的装置,其中每个单独的用户简档包括对用于所述电子通信会话的姿势对象的多个类别中的姿势对象的具体类别的至少一个偏好,其中所述姿势对象的多个类别包括文字、具体形象、图形、音频以及触觉可察觉反馈中的至少一个,其中所述偏好基于由用户用于通信会话的具体通信设备、通信会话的类型以及通信会话中的其他用户的身份中的至少一个因素;
所述至少一个电子通信服务提供者服务器还包括:对于每个用户从用于所识别的电子通信姿势的多个姿势对象的数据库中选择被分配给具体类别的单独的姿势对象的装置,所述具体类别由用户在单独的用户简档中指定;以及
所述至少一个电子通信服务提供者服务器还包括:用于向所述多个用户中的每一个传输为每个用户选择的单独的姿势对象的装置。
技术领域\n本发明一般涉及改进的姿势识别。具体地,本发明涉及从由一个或多个图像捕获设备捕获的三维图像流检测由用户视线外的其他人作出的姿势、并且向用户通知该由用户视线外的其他人作出的姿势。\n背景技术\n人们并不是仅仅通过话语来进交流;非口头的姿势和面部表情都是重要的交流手段。例如,代替说“是”,一个人可以点头以非口头地传达肯定的回答。在另一示例中,尽管一个人可以说“是”,但是也可以同时来回摇头以表达“不”,向听众指示所说的话语“是”并不是完全的肯定并且可能需要听众对说话者意图进行进一步询问。因此,取决于交流的背景,非口头的姿势可以强调或否定相应的口头交流。\n在一些情况下,尽管说话者可以使用非口头的姿势进行交流,但是听众可能没有用以观察说话者的非口头交流的视线。在交流过程中缺少视线的一个示例中,具有某种视力缺陷的人可能不能观察到另一个人的姿势。在交流过程中缺少视线的另一个示例中,两个或多个人通过电子通信而进行交流,例如无论是通过电话、通过文字消息、还是在即时消息发送会话期间,通常没有用以观察相互的非口头交流的视线。\n在用以提供包括口头交流和非口头交流的长距离交流的一项尝试中,一些服务提供者支持视频会议。在视频会议期间,每个参与者的计算机系统处的视频摄像机捕获用户的视频图像流并将该视频图像流发送给服务提供者。该服务提供者然后将每个参与者的视频图像流分发给其他参与者的计算机系统以供其他参与者观看。然而,即使当两个或多个人通过视频会议通信时,观看两维视频图像是检测非口头交流的受限手段。具体地,对于要被适当解释的姿势而言,可能需要三维视野(sight)。另外,当与具体对象相关地作出姿势时,两维视频图像可能不能给观看者提供适当的观察(perspectiVe)以理解通过与具体对象相关的非口头的姿势正在传达什么。进一步,以较小运动作出的姿势,诸如面部表情,经常难于从两维视频图像中检测出来,以理解非口头地传达了什么。例如,可以从一个人向前伸下巴而检测出这个人生气,但是难于从两维视频图像中检测到人的下巴的位置的变化。\n考虑到上述情况,需要一种下述的方法、系统以及程序,其用于检测参与与不具有第一用户的直接视线的第二用户的交流的第一用户的三维运动,适当地从所检测的运动中识别姿势,并且将该姿势传达给第二用户。\n发明内容\n因此,本发明从三维捕获图像提供改进的姿势识别。具体地,本发明提供从由一个或多个图像捕获设备捕获的三维图像流检测由用户视线外的其他人作出的姿势、以及向用户通知由用户视线外的其他人作出的姿势。\n在一个实施例中,姿势使能的电子通信系统向用户通知由参与通信会话的其他用户作出的姿势。该系统捕获参与电子通信会话的多个用户中的第一用户的三维运动,其中使用瞄准第一用户的至少一个图像捕获设备来确定该三维运动。该系统使用所捕获的运动识别三维对象属性流,然后通过将所识别的三维对象属性流与多个电子通信姿势定义进行比较来识别表示三维对象属性流的具体的电子通信姿势。响应于从多个电子通信姿势定义中识别具体电子通信姿势,该系统向参与电子通信会话的用户传输与所识别的电子通信姿势相对应的电子对象。\n在捕获第一用户的三维运动中,该系统可以使用立体视频捕获设备来捕获三维运动,以识别并跟踪具体三维动作。另外,在捕获第一用户的三维运动中,该系统可以使用至少一个立体视频捕获设备和至少一个传感器使能的设备来捕获三维运动,以检测所检测的运动对象在三维运动中的深度。此外,在捕获第一用户的三维运动中,当第一用户通过主动说话和主动打字之一来主动参与电子通信会话时,该系统可以捕获第一用户的三维运动。\n此外,在识别表示三维对象属性流的具体的电子通信姿势中,该系统计算所捕获的三维运动表示在具体电子通信姿势中定义的具体姿势的百分比可靠度。该系统还调节输出对象的至少一个输出特性以表达该百分比可靠度。\n在向用户传输电子对象时,该系统可以在电子通信会话中传输电子对象作为第一用户的一个输入。此外,在向用户传输电子对象中,该系统可以将电子对象作为命令传送给触觉可察觉(tactile detectable)的设备,以输出表示所识别的电子通信姿势的具体触觉可察觉输出模式。\n此外,在向用户传输电子对象时,该系统可以确定用于向每个用户输出的单独的电子对象。对于每个用户,该系统存取具有对输出对象的类别选择的偏好的用户简档(profile),以基于诸如其他用户的身份、用户用于参与电子通信会话的设备、以及电子通信会话的类型之类的因素来输出。对于每个用户,基于输出对象的类别,该系统选择专用于所识别的电子通信姿势的类别的具体输出对象。该系统根据用户偏好来向每个用户传输每个单独选择的输出对象。\n附图说明\n在所附权利要求中,描述了本发明的新特征。然而,当结合附图阅读时,通过参照下面的示例实施例的详细描述,将更好地理解本发明本身、以及偏好模式、及其进一步的目标和优点,在附图中:\n图1是图示姿势处理方法、系统及程序中的信息流动的方框图;\n图2是示出环境的示例的示意图,在该环境中3D姿势检测器捕获并产生表示可检测的姿势运动的3D对象属性;\n图3是图示3D姿势检测器系统的一个实施例的方框图;\n图4是示出姿势解释器系统的一个实施例的方框图;\n图5是图示其中可以实施本发明的计算系统的一个实施例的方框图;\n图6是示出其中可以实施姿势处理方法、系统及程序的分布式网络环境的一个示例的方框图;\n图7是图示与姿势使能的电子通信控制器通信的姿势解释器系统的实现的一个示例的方框图;\n图8是示出用于控制与电子通信会话相关联的预测姿势的输出的姿势使能的电子通信服务的方框图;\n图9是图示姿势检测接口和姿势对象输出接口的一个示例的方框图;\n图10是示出用于指示姿势对象输出的触觉可察觉的反馈设备的一个示例的原理图;\n图11是图示用于姿势数据库系统的姿势学习控制器的一个示例的方框图;\n图12是示出姿势处理系统的、用来以百分比可靠度预测姿势的处理和程序的高级逻辑流程图;\n图13是图示通过在图像流和其他感测数据中跟踪对象并产生所跟踪对象的3D对象属性的姿势检测的处理及程序的高级逻辑流程图;\n图14是示出根据所跟踪的3D对象属性的姿势预测的处理及程序的高级逻辑流程图;\n图15是图示用于在姿势使能的电子通信系统中应用预测姿势的处理及程序的高级逻辑流程图;以及\n图16是示出用于在姿势使能的触觉反馈系统中应用预测姿势的处理及程序的高级逻辑流程图。\n具体实施方式\n现在参照图1,方框图图示了姿势处理方法、系统及程序中的信息流动。注意到以下是重要的:如自始至终使用的,术语“姿势”可以包括典型地被标记为姿势的用户动作,并且还可以包括任何可检测的身体运动、身体姿态以及其他类型的非口头交流。\n在示例中,姿势处理系统100包括三维(3D)姿势检测器104。3D姿势检测器104表示下列的多个系统:用于捕获关于运动对象和静止对象的图像和其他数据、流化(streamline)所捕获的数据、在所捕获的运动中跟踪具体对象、流式传输(streaming)具体对象的属性、以及将流式传输的属性组合为所捕获的对象的3D属性的三维表示,如由3D对象属性110所图示的。对象属性可以包括但不限于,位置、颜色、大小和方向。\n在该示例中,3D姿势检测器104捕获聚焦区域(focus area)内的图像,如由可检测的姿势运动102所表示的。另外,3D姿势检测器104可以检测聚焦区域内其他类型的数据。具体地,3D姿势检测器104通过多种类型的图像和数据检测(包括,但不限于捕获视频图像、检测身体部分运动、检测皮肤肌理、检测皮肤颜色、以及捕获热像)来检测可检测的姿势运动102。为了支持多种类型的图像和数据检测,3D姿势检测器104可以包括多种类型的图像捕获设备,包括被排列用于立体视频图像捕获的一个或多个视频摄像机、以及其他类型的传感器、诸如热体成像传感器、皮肤肌理传感器、激光感测设备、声波导航和测距(SONAR)设备、或合成的激光或声纳系统。一部分的可检测的姿势运动102可以包括表示实际姿势的图像和其他数据,并且其他部分的可检测的姿势运动102可以包括不表示姿势的图像和数据。另外,可检测的姿势运动102可以包括一个或多个运动对象和静止对象。\n3D姿势检测器104将可检测的姿势运动102解释成所检测的对象的3D属性流,并将该3D对象属性流110传送给姿势解释器106。姿势解释器106将流式传输的3D对象属性110映射到一个或多个姿势,并且对于每个预测姿势估计所检测的对象的所检测的运动表示预测姿势的概率。\n姿势解释器106输出每个预测姿势和百分比可靠度作为预测姿势输出108。姿势解释器106可以将预测姿势输出108传送给一个或多个系统处的一个或多个姿势使能的应用。\n具体地,在处理可检测的姿势运动102和产生预测姿势输出108时,3D姿势检测器104和姿势解释器106可以存取先前积累的并且存储有姿势定义的姿势数据库112,以更好地检测可检测的姿势运动102中的对象和更好地预测与所检测的对象相关联的姿势。\n另外,在处理姿势运动102和产生预测姿势输出108时,3D姿势检测器104和姿势解释器106可以存取具有专用于姿势使能的应用类型的姿势定义的姿势数据库112,其中预测姿势输出108将被输出给该姿势使能的应用类型。例如,在本实施例中,预测姿势输出108可能被输出到通信服务提供者,使通信服务提供者插入到通信会话中,从而姿势解释器106尝试从所检测的对象运动预测姿势类型,该姿势类型更类似于已经被确定为在电子通信期间更可能出现的姿势类型。\n此外,在处理姿势运动102和产生预测姿势输出108时,3D姿势检测器104和姿势解释器106尝试识别表示姿势的对象,并考虑在其中作出姿势的整个交互来预测所作出的姿势。因此,3D姿势检测器104和姿势解释器106尝试确定不仅仅是姿势,还有包括在姿势中的、将影响姿势的含义的强调级别,作出姿势的用户的、将影响姿势的含义的背景,用户在其中作出姿势的、将影响姿势的含义的环境,一起所作出的姿势的、影响每个姿势的含义的组合,以及影响姿势的含义的其他可检测的因素。因此,姿势数据库112包括与不同类型的文化、区域、以及语言相对应的姿势定义。另外,姿势数据库112包括根据相应的面部表情或其他姿势调节的姿势定义。此外,姿势数据库112可以被训练以更准确地识别表示具体用户最常与其相交互的具体人、动物、位置、或事,并因此提供更专门的姿势定义。\n另外,在处理姿势运动102时,图像捕获设备和其他传感器的多个单独系统中的每个可以从不同角度捕获关于单独或重叠的聚焦区域的图像和数据。图像捕获设备和其他传感器的单独系统可以通过无线或有线连接来通信连接,并且可以在3D姿势检测器之间或在姿势解释器之间彼此共享所捕获的图像和数据,使得姿势解释器106可以利用数据的组合以更高准确度来解释姿势。\n现在参考图2,示意地图示出了3D姿势检测器在其中捕获并产生表示可检测的姿势运动的3D对象属性的环境。将理解,可检测的姿势运动环境200是3D姿势检测器104在其中检测表示可检测的姿势运动102的图像和数据(如参考图1中姿势处理系统100所描述)的环境的一个示例。可以实现在其中检测并处理姿势运动的其他环境。\n在该示例中,可检测的姿势运动环境200包括包含视频摄像机202和视频摄像机204的立体捕获设备,放置视频摄像机202和视频摄像机204的每一个以检测在组合的3D聚焦区域220内的一个或多个对象的运动。在所描述的实施例中,可以将视频摄像机202和视频摄像机204的每一个放置在一个静止轴或单独的静止轴上,使得由3D聚焦区域220表示的区域保持恒定被聚焦。另外,在所描述的实施例中,可以并行地、以正切或其他任何角度来放置视频摄像机202和视频摄像机204和任何其他传感器(未示出),以控制3D聚焦区域220的范围并捕获3D聚焦区域220内的图像。\n在另一实施例中,可以将视频摄像机202和视频摄像机204的每一个放置在位置可调的轴上,或者视频摄像机202和视频摄像机204的实际聚焦点是可以调节的,使得由3D聚焦区域220表示的区域可以被重新定位。在一个示例中,视频摄像机202和视频摄像机204的每一个都与热成像设备耦接,该热成像设备在广阔区域内检测基于热成像的运动,并且命令视频摄像机202和视频摄像机204的每一个的聚焦区域的重新定位,以在每个摄像机的聚焦区域中跟踪热运动。\n在另一实施例中,可以将视频摄像机202和视频摄像机204固定到一个由移动实体承载的装置。例如,可以将视频摄像机202和视频摄像机204固定到人的一副眼镜或其他头部佩带的物品,使得3D聚焦区域220随着用户移动而改变。在另一示例中,可以将视频摄像机202和视频摄像机204固定到运动机器,诸如交通工具,使得3D聚焦区域220随着交通工具移动而改变。\n在另一实施例中,可以仅实现单个视频摄像机,诸如视频摄像机202,用于立体图像捕获。将该单个视频摄像机放置在轨道或其他可调节的轴上,并且控制器沿着轨道调节该单个视频摄像机的位置,其中该单个视频摄像机然后在沿着轨道的不同放置点捕获聚焦区域内的视频图像流,并且3D姿势检测器104将图像流组合为可检测的对象属性的3D对象属性流。\n为了示例的目的,3D聚焦区域220包括由视频摄像机202捕获的第一捕获平面206和由视频摄像机204捕获的第二捕获平面208。第一捕获平面206检测由附图标记214图示的平面内的运动,第二捕获平面208检测由附图标记216图示的平面内的运动。因此,例如,视频摄像机202检测3D聚焦区域220内对象来回或上下的运动,视频摄像机204检测3D聚焦区域220内对象前后的运动。\n在该示例中,在3D聚焦区域220内,手210表示运动对象,盒子212表示静止对象。在该示例中,手210是3D聚焦区域220内用户的手的部分。用户可以通过运动手210作出多种姿势。随着用户在3D聚焦区域内移动手210,视频摄像机202和视频摄像机204的每一个捕获捕获平面206和捕获平面208内的手210的运动的视频流。根据该视频流,3D姿势检测器104将手210检测为3D聚焦区域220内的运动对象,并在一段时间上产生手210的、表示3D对象属性110的3D属性流。\n另外,用户可以用手210相对于盒子212作出姿势。例如,用户可以指向盒子212以选择购买与盒子212相关联的产品。随着用户在3D聚焦区域内运动手210,由视频摄像机202和视频摄像机204捕获的视频流包括手210和盒子212的运动。根据该视频流,3D姿势检测器104将手210检测为3D聚焦区域220内的运动对象并将盒子212检测为3D聚焦区域220内的静止对象,并在一段时间上产生指示手210相对于盒子212的3D属性的3D对象属性流。\n注意到以下是重要的,通过使用多个摄像机捕获3D聚焦区域220内的不同平面的运动,捕获到比利用通常的静止单个摄像机将出现的更多点的运动。通过从多于一个角度捕获更多点运动,3D姿势检测器104可以更准确地检测并定义3D聚焦区域220内静止对象和运动对象(包括姿势)的3D表示。另外,3D姿势检测器104定义运动对象的3D表示越准确,姿势解释器106可以越准确地从3D模型预测姿势。例如,姿势可以包括用户作出直接朝向或离开视频摄像机202和视频摄像机204之一的运动,该运动在两维帧中将不能被捕获到;3D姿势检测器104检测并定义姿势的3D表示为运动对象,姿势解释器106从运动的3D模型预测通过朝向或离开视频摄像机的运动所作出的姿势。\n另外,注意到以下是重要的,尽管图2图示了作出姿势的手210和静止盒子212,在替代实施例中,3D聚焦区域220可以包括多个作出姿势的单独的人,视频摄像机202和视频摄像机204捕获多个作出姿势的人的图像,3D姿势检测器104检测每个人作出的每个姿势作为单独对象。具体地,3D姿势检测器104可以从来自视频摄像机202和视频摄像机204的所捕获的视频图像中检测具有较多运动的姿势(诸如用手作出的姿势)以及用较少运动作出的姿势(诸如面部表情),以准确地产生一个人与他人的非口头交流和交互的3D对象属性。\n现在参考图3,方框图图示了3D姿势检测器系统的一个实施例。注意到以下是重要的,在3D姿势检测器系统300内示出的多个部件可以被并入在单个系统中或经由网络、其他通信介质、或其他传输介质而分布在多个系统上。另外,注意到以下是重要的,可以在3D姿势检测器系统300中实现图示的那些部件的附加或替代的部件,以捕获图像和数据并产生3D对象属性324的流。\n初始地,诸如图像捕获设备302、图像捕获设备304和传感器306的多个图像捕获设备表示用于获取表示3D聚焦区域(诸如3D聚焦区域220)内可检测的姿势运动102的数据的立体图像捕获设备。如之前所图示的,图像捕获设备302和图像捕获设备304可以表示用于捕获视频图像的视频摄像机,诸如视频摄像机202和视频摄像机204。另外,图像捕获设备302和图像捕获设备304可以表示一个摄像机或其他的静止图像捕获设备。另外,图像捕获设备302和图像捕获设备304可以表示能够捕获表示可检测的姿势运动102的数据的其他类型的设备。可以使用相同类型的图像捕获系统或不同类型的图像捕获系统来实现图像捕获设备302和图像捕获设备304。另外,由图像捕获设备302和图像捕获设备304的每一个捕获的捕获区域和平面的范围、大小、和位置可以变化。进一步,如之前参考图2描述的,可以将图像捕获设备302、图像捕获设备304和传感器306的每一个放置在固定轴或可移动的轴上,并且可以将其平行、正切、或以任何其他角度放置,以调节捕获区域的范围并捕获捕获区域内的图像。\n传感器306可以表示一个或多个不同类型的传感器,包括但不限于热体成像传感器、皮肤肌理传感器、激光感测设备、声波导航和测距(SONAR)设备、或合成的激光或声纳系统。另外,传感器306可以包括检测具体类型的身体部分、具体类型的身体运动或皮肤肌理的传感器。\n具体地,传感器306检测关于具体聚焦区域中对象的信息,其增强创建3D对象属性的能力。例如,通过借助于SONAR设备实现传感器306,传感器306收集关于对象厚度和从SONAR设备到对象的距离的附加信息,其中该厚度测量由一个或多个视频处理器316、视频处理器318、或几何处理器320使用,来产生3D对象属性324。如果将传感器306附加到运动对象,则可以实现合成SONAR设备。\n图像捕获设备302、图像捕获设备304和传感器306中的每一个将所捕获的图像和数据传输给一个或多个计算系统,该一个或多个计算系统被使能以初始接收和缓冲所捕获的图像和数据。在该示例中,图像捕获设备302将所捕获的图像传输给图像捕获服务器308,图像捕获设备304将所捕获的图像传输给图像捕获服务器310,传感器306将所捕获的数据传输给传感器服务器312。图像捕获服务器308、图像捕获服务器310、和传感器服务器312可以在一个或多个服务器系统中实现。\n图像捕获服务器308、图像捕获服务器310、和传感器服务器312的每一个将来自图像捕获设备302、图像捕获设备304、和传感器306的、经缓冲的图像和数据流式传输到一个或多个处理器。在该示例中,图像捕获服务器308将图像流式传输到视频处理器316,图像捕获服务器310将图像流式传输到视频处理器318,传感器服务器312将所感测的数据流式传输到传感器处理器319。注意到以下是重要的,视频处理器316、视频处理器318、和传感器处理器319可以在一个或多个计算机系统中的一个或多个处理器中实现。\n在一个示例中,图像捕获服务器308和图像捕获服务器310中的每个分别将图像流式传输到视频处理器316和视频处理器318,其中以帧为单位流式传输图像。每个帧可以包括但不限于图像捕获设备的摄像机标识符(ID)、帧号、时间戳和像素数量。\n视频处理器316、视频处理器318、和传感器处理器319被编程以检测并跟踪图像帧内的对象。具体地,由于视频处理器316、视频处理器318、和传感器处理器319接收合成数据的流,并处理数据以识别三维对象和三维对象的属性,所以视频处理器316、视频处理器318、和传感器处理器319可以实现Cell宽带引擎(Cell Broadband Engine Cell BE)结构(Cell宽带引擎是索尼计算机娱乐有限公司的注册商标)。Cell BE结构指一种处理器结构,该处理器结构包括基本处理器元件,诸如基于Power结构的控制处理器(PPE),该基本处理器元件连接到也被称为协处理元件(SPE)的多个附加处理器元件,并且实现用于处理器元件之间有效通信的一组DMA命令。具体地,SPE可以被设计为比其他的元件更有效地处理某种类型的处理任务。例如,SPE可以被设计为更有效地操作处理视频流,以识别并映射帧流内的运动对象的点。另外,视频处理器316、视频处理器318、和传感器处理器319可以实现其他类型的处理器结构,该处理器结构使得能够进行视频图像的有效处理,以三维地识别视频图像内的运动对象和静止对象。\n在该示例中,视频处理器316、视频处理器318、和传感器处理器319的每一个创建所检测对象的、包括位置、颜色、大小、和方向的属性流,并将该属性流流式传输到几何处理器320。在一个示例中,被流式传输到几何处理器320的每个经过处理的帧可以包括但不限于摄像机ID、帧号、时间戳、和X轴坐标(x_loc)和Y轴坐标(y_loc)。注意到以下是重要的,x_loc和y_loc可以每一个包括识别对象的所有属性的点和其他数据的多个集合。如果在单个帧中检测到多个对象,则用于每个对象的X轴坐标和Y轴坐标可以被包括在单个流式传输的对象属性记录中或在多个单独流式传输的对象属性记录中。另外,流式传输的属性帧,诸如来自传感器处理器319的用于SONAR检测位置的帧,可以包括Z轴位置坐标,例如用z_loc列出。\n几何处理器320从视频处理器316和视频处理器318接收2D流式传输的对象属性,并从传感器处理器319接收其他对象数据。几何处理器320对于每个对象使得流式传输的2D对象属性与其他数据相配合。另外,几何处理器320从流式传输的2D对象属性与其他数据构造每个所检测的对象的3D对象属性324。具体地,几何处理器320构造包括对象厚度的3D对象属性324。在一个示例中,由几何处理器320构造的每个3D对象属性记录可以包括时间戳、X轴坐标(x_loc)、Y轴坐标(y_loc)和Z轴坐标(z_loc)。\n在视频处理器316、视频处理器318、传感器处理器319、和几何处理器320的任何一个处,属性记录可以包括至少一个标识符以使得能够持续跟踪对象。例如,该标识符可以包括用于对象本身的唯一标识符,也可以包括一类对象或一种类型对象的标识符。\n具体地,在视频处理器316、视频处理器318、和传感器处理器319识别并分类对象属性时,每个处理器可以存取姿势数据库322,用于存取先前处理的输入和姿势映射,以更准确地识别和分类2D对象属性、检测并将流式传输的2D对象属性匹配到一个对象。另外,几何处理器320可以基于流式传输的2D对象属性、基于从姿势数据库322存取的先前匹配和构造的3D对象属性,更准确地构造对象的3D对象属性。进一步,姿势数据库322可以存储流式传输的2D对象属性和3D对象属性,以供将来参考。\n另外,在视频处理器316、视频处理器318、和传感器处理器319识别并分类对象属性、以及在几何处理器构造3D对象属性324时,每个处理器可以识别所检测的对象或对象位于其中的环境。例如,视频处理器316、视频处理器318、传感器处理器319、和几何处理器320可以存取姿势数据库322,其包括用于映射面部表情、执行面部识别、以及执行附加处理以识别对象的规范。另外,视频处理器316、视频处理器318、传感器处理器319、和几何处理器320可以存取姿势数据库322,其包括用于识别在其中作出姿势的背景环境的、不同类型的物理环境的规范。进一步,在构造3D对象属性324中,视频处理器316、视频处理器318、传感器处理器319、和几何处理器320可以识别在对象位于其中的环境中的多个所检测的对象之间的相互作用。通过监视和识别在对象位于其中的环境中检测到的对象之间的相互作用,对在其中作出姿势的背景中的姿势可以执行更准确的预测。\n现在参考图4,方框图图示了姿势解释器系统的一个实施例。注意到以下是重要的,在3D姿势解释器系统400中描述的多个部件可以被合并在单个系统中或经由网络在多个系统上分布。在该示例中,3D对象属性记录402包括“时间戳”、“x_loc”、“y_loc”、和“z_loc”数据元素。将理解3D对象属性记录402可以包括附加或替代的数据元素,如由图3的几何处理器320所确定的。\n3D姿势解释器系统400包括姿势解释器控制器404,其中姿势解释器控制器404可以包括一个或多个被编程来执行姿势解释的处理器。例如,姿势解释器控制器404可以包括具有Cell BE结构的、被编程来有效地处理3D对象属性数据流并从3D对象属性流预测姿势的处理器。另外,姿势解释器控制器404可以包括在其上运行软件的处理器,其中软件指令处理3D对象属性流以及从3D对象属性流预测姿势。\n在处理3D对象属性流并预测姿势时,姿势解释器控制器404利用流式传输的3D对象属性表示所映射的姿势动作的百分比可靠度将3D对象属性映射到一个或多个姿势动作。具体地,姿势解释器控制器404存取用于一个或多个姿势的一个或多个姿势定义,并确定3D对象属性是否匹配如在一个或多个姿势定义中定义的一个或多个姿势的一个或多个特性。姿势定义可以包括一个或多个姿势的映射3D模型。另外,姿势定义可以定义识别姿势的特性的参数,该参数包括但不限于所检测的身体部分、运动类型、运动速度、频率、运动范围、运动深度、皮肤或身体温度、以及皮肤颜色。\n注意到以下是重要的,在解释3D对象属性流时,姿势解释器控制器404在由一个或多个姿势检测器系统对于具体聚焦区域识别的一个或多个3D对象属性流中执行所有跟踪对象的集合分析。在一个示例中,姿势解释器控制器404集合用于一个具体聚焦区域的3D对象属性流。在另一示例中,姿势解释器控制器404可以从与聚焦区域重叠的区域接收多个3D对象属性流,针对相似性、位置指示、和方向指示分析该3D对象属性流,并将该3D对象属性流构造成一个区域的3D集合表示。\n在一个实施例中,姿势解释器控制器404可以将所跟踪的对象的集合直接映射到单个姿势定义。例如,在图2中,手指向一个对象;姿势解释器控制器404可以检测手对象正在指向并且检测手指向什么,以确定该指向是指示要求、识别、还是其他类型的姿势。\n在另一实施例中,姿势解释器控制器404将多个集合的跟踪对象映射到多个姿势定义。例如,一个人可以同时通过面部姿态和手姿势进行交流,其中在通过面部姿态和手姿势的跟踪运动而预测交流的实际姿势时,姿势解释器控制器404与手姿势的3D对象属性相关联地分析面部姿态的3D对象属性,并且存取姿势定义以使得能够彼此相关地预测每个姿势。\n在该示例中,姿势解释器控制器404从姿势数据库410存取姿势定义,该姿势数据库410包括一般的姿势动作定义412、特定背景的姿势定义414、特定应用的姿势定义416、以及特定用户的姿势定义418。将理解姿势数据库410可以包括附加或替代类型的姿势定义。另外,注意到以下是重要的,在该示例中图示的每个姿势定义的编组可以存在于单个数据库或者可以经由网络从多个数据库和数据存储系统存取到。\n一般的姿势动作定义412包括用于普通姿势的姿势定义。例如,一般的姿势动作定义412可以包括用于诸如人指向、人摆手、人点头“是”或摇头“否”之类的普通姿势或者用户不依赖于通信类型或通信背景而作出的其他类型的普通姿势的姿势定义。\n特定背景的姿势定义414包括专用于在其中检测出姿势的背景的姿势定义。背景的示例可以包括但不限于,作出姿势的人的当前位置、时刻、用户所说的语言、和影响可以在其中解释姿势的背景的其他因素。作出姿势的人的当前位置可能包括该用户位于其中的国家或区域,且可能包括这个人说话的实际地点,例如这个人是在商务会议室中、在办公室中、在家里、还是在车里。姿势解释器控制器404可以通过以下方式来检测当前背景:存取一个人的电子日程表来检测这个人的预先安排的位置和关于那个位置的附加背景信息、存取一个人的位置的GPS指示器、对这个人的演讲进行语音分析来检测语言类型、检测指示具体类型的位置的图像数据中的对象、或从监视用户正在其中说话的背景的其他系统中接收附加数据。\n特定应用的姿势定义416包括专用于预测姿势将要被发送到的应用的姿势定义。例如,如果姿势解释器控制器404将向即时消息发送服务提供者传输预测姿势,则姿势解释器控制器404从特定应用的姿势定义416选择与即时消息发送相关联的姿势定义。在另一示例中,如果姿势解释器控制器404将被设置为向移动用户传输预测姿势,则姿势解释器控制器404从特定应用的姿势定义416选择与支持到移动用户的通信相关联的姿势定义。\n特定用户的姿势定义418包括专用于作出姿势的用户的姿势定义。具体地,姿势解释器控制器404可以从用户登陆以使用电子通讯、将用户的生物统计条目(biometric entry)与生物统计标识符(biometric identifiers)数据库相匹配、用户说出标识符、或从其他类型的身份检测来存取用户的标识符。\n此外,在可用的姿势定义中,至少一个姿势定义可以与运动的具体区域或运动的具体深度相关联。将在其中检测到运动的三维聚焦区域划分成三维部分,其中可以在姿势定义的不同选择下解释在每个部分中作出的运动。例如,可以将聚焦区域的一个三维部分考虑为“活动区域”,其中将在该区域中检测到的运动和与该具体的活动区域(诸如用户在其中作出实际选择的区域)相关联的姿势定义的选择进行比较。\n如将参考图11进一步描述的,可以基于用户反馈添加或调节包括在姿势数据库410中的姿势定义。例如,姿势数据库410可以以类似于训练语音识别系统的方式来学习附加的姿势定义并通过用户反馈调节已经学习到的姿势定义的参数,以总体上更准确地映射和预测、在不同背景中的、专用于应用的、和专用于具体用户的姿势。\n姿势解释器控制器404可以以一个或多个姿势记录的形式(诸如姿势记录420)输出预测姿势输出108。姿势记录420指示“姿势类型”和表示所检测的运动是预测姿势类型的确定性的“概率%”。另外,姿势记录420包括姿势的开始X、Y、和Z轴属性和结束X、Y、和Z轴属性,列出为“开始_x_pos”、“结束_x_pos”、“开始_y_pos”、“结束_y_pos”、“开始_z_pos”、“结束_z_pos”。尽管没有示出,但是取决于将向其发送姿势记录420的姿势使能的应用,姿势解释器控制器404可以在每个姿势记录中包括附加类型的信息,包括但不限于作出姿势的用户的用户标识符、该对象相对于其他对象或相对于所检测的聚焦区域的相对位置、以及可由姿势解释器控制器404检测的其他信息。\n现在参考图5,方框图描述了可以在其中实现本发明的计算系统的一个实施例。本发明的控制器和系统可以在多种系统中执行,包括通信连接到诸如网络502的网络的多种计算系统,诸如计算机系统500。\n计算机系统500包括总线522或用于在计算机系统500内传递信息的其他通信设备、以及至少一个耦接到总线522、用于处理信息的处理设备,诸如处理器512。总线522偏好地包括低等待时间和高等待时间路径,低等待时间和高等待时间路径通过桥接器和适配器连接并且在计算机系统500内由多个总线控制器控制。当实现为服务器时,计算机系统500可以包括被设计用来提高网络服务能力的多个处理器。其中多个处理器共享总线522,可以实现用于管理总线存取和锁定的附加控制器(未示出)。\n处理器512可以是诸如IBM的PowerPCTM处理器的通用处理器,在正常操作期间,该处理器在操作系统560、应用软件570、中间件(未示出)、以及其他代码的控制下处理数据,所述其它代码可从诸如随机存取存储器(RAM)514的动态存储设备、诸如只读存储器(ROM)516的静态存储设备、诸如海量存储设备518的数据存储设备、或其他数据存储介质存取。在一个示例中,处理器512可以进一步实现CellBE结构,以更有效地处理3D的合成数据流。将理解处理器512可以实现其他类型的处理器结构。另外,注意到以下是重要的,处理器512可以表示本地或通过网络连接的、并且能够高效地分发处理任务的多个处理器芯片。\n在一个实施例中,由处理器512执行的操作可以控制根据所捕获的图像和数据的3D对象检测、根据所检测的3D对象的姿势预测、以及通过姿势使能的应用的预测姿势的输出,如在图12-16的流程图操作和这里描述的其他操作中所示。由处理器512执行的操作可以被操作系统560、应用软件570、中间件或其他代码来请求,或者本发明的步骤可以由包括用于执行该步骤的硬件逻辑电路的特定硬件部件或者由编程的计算机部件和定制的硬件部件的任何组合来执行。\n本发明可以被提供为一种计算机程序产品,包括在其上存储有用来编程计算机系统500以执行根据本发明的处理的机器可执行指令的计算机可读介质上。这里使用的术语“计算机可读介质”包括参与向处理器512或计算机系统500的其他部件提供指令以供执行的任何介质。这种介质可以采取许多形式,包括但不限于非易失性介质、易失性介质、和传输介质。非易失性介质的普通形式包括,例如软盘、软磁盘、硬盘、磁带或任何其他磁介质、紧致盘ROM(CD-ROM)或其他任何光介质、穿孔卡片或具有孔样式的任何其他物理介质、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除EPROM(EEPROM)、闪存、任何其他存储器芯片或盒式磁带、或计算机系统500可以从其读出指令并且其适于存储指令的任何其他介质。在本实施例中,非易失性介质的示例是海量存储设备518,如所示的其是计算机系统500的内部部件,但将理解也可以被外部设备来提供。易失性介质包括诸如RAM514的动态存储器。传输介质包括同轴电缆、铜线或光纤、包括包含总线522的导线。传输介质也可以采用声波或光波的形式,诸如那些在射频、或红外数据通信期间所产生的。\n此外,本发明可以作为计算机程序产品下载或分布,其中程序指令可以通过在经由网络502到耦接到总线522的通信接口532的网络链接534(例如,调制解调器或网络连接)的载波或其他传播介质中包含的数据信号而从诸如服务器540的远程计算机传送到请求计算机系统500。在一个示例中,其中处理器512包括多个处理器元件,本地或经由网络地分布在处理器元件中的处理任务可以表示消费者程序产品,其中处理任务包括用于执行处理的程序指令或用于存取Java(Java是Sun Microsystem公司的注册商标)对象的程序指令、或者用于执行处理的其他可执行的程序指令。通信接口532提供耦接到网络链接534的双向数据通信,该网络链接534可能连接到例如局域网(LAN)、广域网(WAN)、或直接连接到因特网服务供应商(ISP)。具体地,网络链接534可以向一个或多个网络(诸如网络502)提供有线和/或无线网络通信。此外,尽管没有示出,通信接口532可以包括诸如设备驱动程序之类的软件、诸如适配器之类的硬件、和使得能够进行通信的其他控制器。当作为服务器实现时,计算机系统500可以包括例如可经由连接到输入/输出控制器的多个外围部件互连(PCI)总线桥接器存取的多个通信接口。以这种方式,计算机系统500允许经由多个单独端口到多个客户的连接,并且每个端口也可以支持到多个客户的多个连接。\n网络链接534和网络502都使用携带数字数据流的电子、电磁、或光信号。通过各种网络的信号以及向计算机系统500携带和从计算机系统500携带数字数据的、在网络链接534上且通过通信接口532的信号可以是传输信息的载波形式。\n另外,计算机系统500可以包括使得输入和输出容易进行的多个外设部件。这些外设部件连接到耦接到多级总线522中的一级的多个控制器、适配器、和诸如输入/输出(I/O)接口的扩展卡槽。例如,输入设备524可以包括例如麦克风、视频捕捉设备、身体扫描系统、键盘、鼠标、或经由控制输入的I/O接口526在总线522上通信使能的其他输入外设。另外,例如,经由I/O接口526在总线522上通信使能的输出设备520可以包括例如一个或多个图形显示设备、音频扬声器、和触觉可察觉的输出接口,但还可以包括其他输出接口。在本发明的替代实施例中,可以增加附加的或替代的输入和输出外设部件。\n本领域技术人员将理解图5中示出的硬件可以改变。此外,本领域技术人员将理解所描述的示例不意味着对本发明施加结构限制。\n现在参考图6,方框图示出了分布式网络环境的一个示例,其中可以实现姿势处理方法、系统和程序。注意到以下是重要的,分布式网络环境600是在其中可以实现姿势处理方法、系统和程序的一种类型的网络环境的示例,然而,可以在其他网络环境中实现姿势处理方法、系统和程序。另外,注意到以下是重要的,分布式网络环境600内的系统分布是系统分布的示例,然而,可以实现网络环境内的其他系统分布。此外,注意到以下是重要的,在该示例中,所示出的系统是在实现姿势处理系统中可以存取或请求存取的系统和服务的类型的代表。将理解,网络环境中的其他类型的系统与服务以及系统与服务的其他编组可以实现该姿势处理系统。\n如所图示的,分布式网络环境600中的多个系统可以经由网络502通信链接,网络502是用来提供通信链接的各种设备和计算机之间的通信链接的介质。网络502可以包括,例如,诸如有线或光纤电缆的永久连接以及通过电话连接和无线传输连接进行的临时连接。网络502可以表示基于分组切换和基于通话的网络、局域网和广域网、公用网和私有网。将理解图6表示用于支持姿势处理系统的分布式通信网络的一个示例;然而可以实现用于支持并实现本发明的姿势处理系统的其他网络配置和网络部件。\n图6中示出的网络环境可以实现多种类型的网络结构。在一个示例中,可以使用客户端/服务器结构来实现网络环境,其中请求数据或处理的计算系统被称为客户端,处理数据请求和处理的计算系统被称为服务器。将理解,在客户端/服务器结构中,客户端系统可以作为客户端和服务器两者执行,服务器系统可以作为客户端和服务器两者执行。另外,将理解,可以实现其他类型的网络结构和网络结构的组合。\n在示例中,分布式网络环境600包括具有立体图像捕获系统604的客户端系统602以及具有立体图像捕获系统608的客户端系统606。在一个示例中,立体图像捕获系统604和608包括多个图像捕获设备,诸如图像捕获设备302和304,并且可以包括诸如传感器306的一个或多个传感器。立体图像捕获系统604和608捕获图像和其他数据,并经由网络502向其他系统流式传输图像和其他数据,以便处理。另外,立体图像捕获系统604和608可以包括用于跟踪对象属性的视频处理器(诸如参照图3描述的视频处理器316和视频处理器318)以及用于产生3D对象属性流的几何处理器(诸如参照图3描述的几何处理器320)。\n在一个示例中,每个客户端系统602和606可以向一个或多个姿势检测服务流式传输所捕获的图像帧。在一个示例中,姿势处理服务提供者服务器620提供服务,该服务包括用于处理所流式传输的图像的姿势检测器服务,和用于预测姿势并控制预测姿势向可经由网络502存取的一个或多个其他系统的输出的姿势解释器服务两者。\n对于姿势处理服务提供者服务器620,不同实体可以实现一个姿势处理服务,而不同实体可以存取该姿势处理服务。在一个示例中,登陆到客户端系统602或606之一的用户可以订阅姿势处理服务。在另一示例中,请求姿势处理的图像捕获系统或具体应用可以自动地向姿势处理服务流式传输所捕获的图像和数据。在另一示例中,一种业务(business)可以在通信网络中实现姿势处理服务。\n在另一示例中,客户端系统602和606的每一个可以向3D姿势检测器服务器624流式传输所捕获的帧。3D姿势检测器服务器624从诸如立体图像捕获系统604或立体图像捕获系统608的图像捕获系统接收所捕获的图像和其他数据,并且处理图像和其他数据以产生所检测的对象的3D属性,以便向诸如姿势解释器服务器622或姿势处理服务提供者服务器620的姿势解释器系统输出。在另外或替代实施例中,可以在一个或多个其他系统中与在这些系统中执行的一个或多个其他服务一起实现姿势检测器服务。具体地,在另外或替代实施例中,可以在捕获图像和其他数据的客户端系统内实现姿势检测器服务。\n具体对于姿势解释器服务器622和3D姿势检测服务器624,这些服务器的每一个都可以分布在一个或多个系统上。具体地,姿势解释器服务器622和3D姿势检测服务器624的每一个都可以分布在具有3D图像处理能力的系统上,该系统包括具有CellBE结构的、被编程以执行有效的3D数据处理的处理器。在一个示例中,诸如业务或服务提供者的实体可以实现用于姿势检测和姿势解释的单独的服务器系统,其中实现多个姿势解释器服务器,每个姿势解释器服务器处理不同类型的3D属性。\n姿势处理服务提供者服务器620、姿势解释器服务器622、和3D姿势检测器服务器624可以本地存储未经处理的图像、3D对象属性、和姿势定义的姿势数据库,诸如姿势数据库110。另外,姿势处理服务提供者服务器620、姿势解释器服务器622、和3D姿势检测服务器624可以存取姿势数据库服务服务器626,其使姿势数据库628容易(facilitate)被存取。姿势数据库628可以包括但不限于未经处理的图像和数据、3D对象属性、姿势定义和姿势预测。\n另外,姿势数据库服务服务器626包括姿势学习控制器630。姿势学习控制器630促使用户提供具体类型的姿势的样本,并且促使用户指示预测姿势是否与用户期望的姿势相匹配。另外,姿势学习控制器630收集其他信息,使得姿势学习控制器630能够学习并将姿势信息保持在姿势数据库628中,使得当被姿势检测服务和姿势解释器服务存取时,提高由这些服务进行的3D对象属性产生的准确度和姿势预测的准确度。在一个示例中,姿势数据库服务器626提供姿势签名服务,其中,姿势学习控制器630学习用户的第一组姿势并通过监视电子通信中的用户参与而继续监视和学习另外的姿势,以提供单个存储系统,对于该系统,用户可以命令其他服务存取与该用户相关联的姿势定义。\n此外,姿势处理服务提供者服务器620、姿势解释器服务器622、3D姿势检测器服务器624或姿势数据库服务服务器626可以从容户简档服务服务器640存取关于作出姿势的人的附加的背景信息。在一个示例中,背景信息可以被用来选择与背景相关联的姿势定义。具体地,来自客户简档服务服务器640的、对于具体用户标识符而存取的背景信息可以使得能够确定背景因素,诸如人的当前位置、这个人位于其中的当前物理环境、人当前预定的事件、以及人的交互的原因、范围、目的、和人特性的其他指示符。\n在一个示例中,客户简档服务提供者640监视用户的电子日程表、用户当前的GPS位置、用户个人GPS位置的周围环境、便携式电话设备。在另一示例中,客户简档服务提供者640存储网络可存取的位置,从该位置处客户简档服务服务器640可以应请求而存取当前的用户信息。在另一示例中,客户简档服务提供者640可以促使用户提供当前交互信息并提供用户对请求服务的响应。\n姿势处理服务提供者服务器620和姿势解释器服务器622经由网络502向姿势使能的应用流式传输3D预测姿势。姿势使能的应用可以表示使得能够接收并处理预测姿势输入的任何应用。\n在示例实施例中,客户端系统606包括姿势使能的应用610。客户端系统606处的姿势使能的应用610可以接收由用户使用客户端系统606作出的、对于姿势的预测姿势,如由立体图像捕获系统608所捕获的,或者可以接收由其他用户作出的预测姿势,如由立体图像捕获系统608或其他图像捕获系统所检测的。\n在一个示例中,姿势使能的应用610可以表示姿势使能的通信应用,其促进由客户端系统606处的用户与其他客户端系统处的其他用户或与服务器系统进行的电子通信。姿势使能的应用610可以接收由客户端系统606处的用户作出的预测姿势,并且促使该用户指示所检测的预测姿势是否正确。如果该用户指示预测姿势正确,则姿势使能的应用610在被促进的电子通信会话中插入姿势表示。如果姿势使能的应用610正在支持多个同时进行的电子通信会话,则姿势使能的应用610可以要求用户指示应在哪个通信会话或哪些通信会话中插入姿势指示。\n另外,在示例实施例中,客户服务提供者服务器612包括姿势使能的应用614。客户服务提供者服务器612表示向一个或多个客户端系统提供服务的服务器。服务可以包括提供因特网服务、通信服务、金融服务、或其他网络可存取的服务。姿势使能的应用614从客户端系统处的用户或者从诸如姿势处理服务提供者服务器620或姿势解释器服务器622的姿势解释器服务接收预测姿势,并且使得能够进行由客户服务提供者服务器612提供的服务,以处理并应用作为输入的预测姿势。\n在一个示例中,客户服务提供者服务器612向多个用户提供电子通信服务,以促进用户的选择之间的电子通信会话。姿势使能的应用614表示姿势使能的通信服务应用,其接收预测姿势,并将预测姿势记录转换成可插入到通信会话中的对象,并且将预测姿势插入到由客户服务提供者服务器612的电子通信服务促进的具体通信会话中。\n现在参照图7,方框图图示了与姿势使能的电子通信控制器通信的姿势解释器系统的实现的一个示例。在该示例中,电子通信控制器720促进两个或多个参与者经由网络进行的电子通信会话。在基于音频或文本的通信会话中,在参与者之间不存在视线,从而,每个参与者不能看到或解释由其他参与者作出的非口头交流,诸如姿势。另外,即使在基于视频的通信中,参与者可以看到所捕获的其他参与者的图像的单个视频流,但是,2D视频流不提供其他参与者的非口头姿势的、三维的完整可视性。\n在该示例中,3D姿势检测器702检测由电子通信控制器720促进的具体通信会话的会话ID以及与该会话ID相关联地捕获的用户图像的用户ID。在一个示例中,3D姿势检测器702检测来自电子通信控制器720的用户ID和会话ID。具体地,尽管没有示出,所捕获的图像首先被流式传输到电子通信控制器720,其中电子通信控制器720将用户ID和会话ID附加到每个图像帧,并将该图像帧传递到3D姿势检测器702。在另一示例中,3D姿势检测器702从立体图像捕获设备接收被附加到所捕获的图像的流的用户ID和会话ID,其中在用户登陆的客户端系统处运行且参与会话的客户应用附加与所捕获的图像的流相关联的用户ID和会话ID。另外,将理解,3D姿势检测器702可以从其他监视和管理工具存取与所捕获的图像的具体选择相关联的用户ID和会话ID。\n具体地,在该示例中,由3D姿势检测器702流式传输的每个3D对象属性记录,诸如3D对象位置属性704,包括用户ID和会话ID。在另一示例中,如果用户正在参与多个单独的电子通信会话,则3D对象属性记录可以包括多个会话ID。\n另外,当姿势解释器控制器706预测3D对象属性的姿势时,用户ID和会话ID与记录保持在一起。例如,预测姿势记录708包括用户ID和会话ID。通过将用户ID和会话ID与记录保持在一起,当姿势解释器控制器706将预测姿势传递给电子通信控制器720时,利用预测姿势可应用的用户ID和会话ID来标记预测姿势。\n电子通信720可以同时促进多个不同组用户之间多个通信会话。通过接收具有用户ID和会话ID的预测姿势,使得电子通信控制器720能够容易地将该姿势与通信会话以及与参与该通信会话的用户进行匹配。另外,通过在预测姿势记录中包括时间戳,电子通信控制器720可以将预测姿势对准到交谈中用户作出姿势的点。\n另外,在该示例中,当3D姿势检测器702检测并产生3D对象属性、以及姿势解释器控制器706预测3D对象属性的姿势时,3D姿势检测器702和姿势解释器控制器706的每一个都存取姿势数据库系统730。姿势数据库系统730包括专用于电子通信控制器720的对象映射和姿势定义的数据库,如先前参照图4的姿势数据库410和图6的姿势数据库服务服务器626所描述的。\n具体地,在预测在电子通信会话期间作出的姿势的实现中,姿势数据库系统730提供到电子通信提供者姿势定义732的存取,其中电子通信提供者姿势定义732专用于由电子通信控制器720支持的电子通信类型。在一个示例中,姿势数据库系统730存取电子通信提供者姿势定义732或来自电子通信控制器720的、要包括在电子通信提供者姿势定义732中的姿势类型。在另一示例中,姿势学习控制器738监视由电子通信控制器720促进的、基于姿势的通信,确定普通姿势,并且产生与由电子通信控制器促进的通信相关联的普通姿势的姿势定义。\n在另一示例中,姿势数据库系统730检测帧记录中的用户ID,并且存取用于具体用户ID的、由姿势学习控制器738学习的姿势定义(如由用户ID姿势定义734所图示的)的数据库。在一个示例中,姿势数据库系统730可以从电子通信控制器720查找用户ID姿势定义734。在另一示例中,姿势数据库系统730可以从姿势签名服务,诸如从图6中的姿势数据库服务器626,查找用于用户ID的姿势定义,该姿势签名服务包括用于具体用户的姿势定义。在另一示例中,姿势学习控制器可以在由电子通信控制器720促进的通信中监视与用户ID相关联的姿势表示,确定普通姿势表示,并产生用于普通姿势表示的姿势定义。\n在另一示例中,姿势数据库系统730检测会话ID,监视在正在进行的会话期间预测的姿势,监视用户对该姿势的响应,并且当会话正在进行时在会话ID姿势定义736中建立对该会话的普通姿势的附加姿势定义。通过建立对于该会话的普通姿势的数据库,姿势数据库系统730对于在该会话期间具有较高重复概率的那些姿势产生姿势定义。另外,姿势数据库系统730还根据参与者的用户ID存储所产生的姿势定义,并且一检测到包括一个或多个相同用户ID的随后会话,就将普通的检测到的姿势包括在当前会话ID姿势定义中。\n现在参照图8,方框图图示用于控制与电子通信会话相关联的预测姿势的输出的姿势使能的电子通信服务的一个示例。如图所示,电子通信控制器804包括用户简档数据库806以及用于控制具有在用户简档数据库806中分配的用户标识符(ID)的一个或多个用户选择之间的一种或多种通信会话的通信会话控制器808。具体地,通信会话控制器808可以提供用于控制一种或多种类型的通信会话的服务,所述一种或多种类型的通信会话包括但不限于:电话通信、音频会议通信、视频会议通信、协作浏览通信、基于文本消息发送的通信、基于即时消息发送的通信、以及经由诸如网络502的网络所支持的其他类型的通信。\n另外,电子通信控制器804是通过姿势对象控制器810而姿势使能的。姿势对象控制器810检测向电子通信控制器804的预测姿势输入。例如,姿势对象控制器810检测具有80%的百分比可靠度的“肯定点头”的预测姿势输入802。\n姿势对象控制器810在通信会话中接收预测姿势输入并确定预测姿势到输出对象的转换。在该示例中,姿势对象控制器810存取姿势对象转换数据库812以将预测姿势输入转换成与通信会话相关联的一种或多种类别的输出对象。\n在一个示例中,姿势对象转换数据库812包括预测姿势的第一元素,如由附图标记820所图示的。如图所示,可以将多个预测姿势编组在一起,诸如“肯定点头”和“拇指向上”的编组、“否定摇头”和“拇指向下”的编组。另外,如所图示的,可以对于诸如“一根手指-暂停”和“一根手指-计数”的单个预测姿势设置偏好。\n另外,对于每个预测姿势,姿势对象转换数据库812包括如在附图标记822处图示的最小预测百分比。例如,对于第一编组和第二编组,最小预测百分比为75%,而对于“一根手指-暂停”和“一根手指-计数”的预测姿势,百分比可靠度为60%。通过设置最小预测百分比阈值,如果由姿势对象控制器810接收的预测姿势的百分比可靠度不满足最小预测百分比阈值,姿势对象控制器810触发与预测姿势相关联的用户的通信,以要求该用户指示该姿势是否是正确的。\n另外,对于每个预测姿势,姿势对象转换数据库812包括不同类别的多种类型的输出对象。在该示例中,输出对象的类别包括:具体化(avatar)输出,如由附图标记824所图示的;图形输出,如由附图标记826所图示的;词输出,如由附图标记828所图示的;触觉反馈输出,如由附图标记830所图示的;音频输出,如由附图标记832所图示的。在该示例中,对于“肯定点头”和“拇指向上”的编组,具体化对象输出为“上下动头”的控制,图形对象输出为图形“微笑的脸”,词对象输出为“是”,触觉反馈对象输出为基于百分比可靠度的强度的“左脉动(pulse left)”,以及音频对象输出为说“[百分比]点头是”的声音。另外,在该示例中,对于“否定摇头”和“拇指向下”的编组,具体化对象输出为“左右动头”的控制,图形对象输出为“皱眉的脸”,词对象输出为“否”,触觉反馈对象输出为基于百分比可靠度的强度的“右脉动(pulse right)”,以及音频对象输出为说“[百分比]摇头否”的声音。此外,在该示例中,对于“一根手指-暂停”姿势,具体化对象输出为“将手保持在停止位置”,图形对象输出为“暂停符号”,词对象输出为“暂停”,触觉反馈对象输出为对于左和右两者的“两侧都脉动两下(double pulseboth)”,以及音频对象输出为说“[百分比]暂停”的声音。在该示例中,对于“一根手指-计数”姿势,具体化对象输出为“举起一根手指”,图形对象输出为图形“1”,词对象输出为“一”,触觉反馈对象输出为“两侧都长脉动(long pulse both)”,以及音频对象输出为说“[百分比]一”的声音。将理解,输出对象的类别以及基于类别的输出对象的类型可以基于用户偏好、可用的输出界面、可用对象、以及其他变量而改变。\n在该示例中,用户简档数据库806包括对于每个用户ID的、如何选择将姿势对象包括到通信会话中的偏好。在该示例中,对于每个用户ID 830,用户可以根据姿势对象输出的具体类别(如以附图标记832所图示的)设置姿势对象输出的多个偏好。具体地,用户可以基于如以附图标记834所图示的通信会话的类型、如以附图标记836所示的通信会话中的其他参与者、如以附图标记838所图示的用于通信会话的设备,指定对于姿势对象输出的类别的偏好。在另外或替代实施例中,用户偏好可以包括关于要应用哪个姿势对象类别的另外或替代的偏好类型,包括但不限于具体时段、如在电子日程表中检测到的预定的事件、位置、或其他可检测因素。此外,用户可以指定一个偏好,以基于在将要输出姿势对象时另一个用户是否在说话来调节类别选择,从而,如果在通信会话中输出其他音频,则选择基于非音频的类别。\n为了例示目的,电子通信控制器804接收具有80%概率百分比、具体用户ID“用户B”、会话ID“103A”的“肯定点头”的预测姿势802和时间戳“10:10:01”。姿势对象控制器810从姿势对象转换数据库812确定百分比可靠度“80%”足以添加到通信中。在该示例中,选择多种类型的输出来图示不同姿势对象类别的输出。\n在一个示例中,“用户A”和“用户B”正在参与由通信会话控制器808控制的且在电子通信会话界面814中所图示的即时消息发送电子通信会话。姿势对象控制器810选择插入与“肯定点头”相关联的词对象“是”。姿势对象控制器810命令通信会话控制器在时间戳“10:10:01”处在会话ID“103A”中包括词对象“是”。在该示例中,在会话ID“103A”的电子通信会话界面814中,第一文本输入是由“用户A”作出的,如由附图标记816所示。以附图标记818所示的下一文本输入包括由“用户B”作出的文本输入。另外,以附图标记820所示的下一输入属于“用户B”且在时间戳“10:10:01”处包括在双方括弧之间标识的词对象“是”。在该示例中,以时间戳顺序,将“用户B”的姿势输入插入消息输入中。在另一示例中,其中文本或声音输入可以在与所述文本或声音输入同时作出的姿势之前到达电子通信控制器,以接收顺序而不是以时间戳顺序,将姿势输入加入。\n在另一示例中,“用户A”和“用户B”正在参与一个由通信会话控制器808控制的电子会议会话,其中每个用户在每个其他用户系统处被图形地表示或者在单独窗口中的视频图像内表示。例如,每个用户可以观看具有“用户A”的视频图像836和“用户B”的视频图像838的电子会议界面834。姿势对象控制器810命令通信会话控制器增加图形“微笑的脸”、80%暗度(如以附图标记840所示),其中图形“微笑的脸”与“用户B”的视频图像838相对应地显示。\n在另一示例中,不考虑由通信会话控制器808促进的电子通信会话的类型,姿势对象控制器810选择触觉反馈输出类别,其指定基于百分比可靠度的强度的“左脉动”。姿势对象控制器810命令触觉反馈控制器842控制在左侧输出可能脉动强度的80%强度的脉动。如将进一步参照图10描述的,用户可以佩带由触觉反馈控制器控制的触觉反馈设备,以脉动(pulse)或建立可以通过触觉感测的其他类型的反馈。其他类型的触觉反馈设备可以包括例如输出触觉可察觉的字符的Braille触摸板。此外,触觉反馈设备可以包括具有振动特征的电话设备,该振动特性可以由姿势对象控制器810控制以便以可识别的触觉可察觉的模式振动。另外,注意到以下是重要的,姿势对象控制器810可以命令通信会话控制器810控制作为由通信会话控制器808促进的通信会话的一部分的、到触觉反馈控制器842的输出。\n在另一示例中,不考虑由通信会话控制器808促进的电子通信会话的类型,姿势对象控制器810选择音频输出类别,其指定声音输出“[百分比]点头是”。姿势对象控制器810命令音频反馈控制器844从文本转换成声音“80%点头是”并且输出该短语到用户可用的音频输出接口,诸如耳机。另外,注意到以下是重要的,姿势对象控制器810可以命令通信会话控制器808控制在由通信会话控制器808促进的基于声音的通信会话中的、到音频反馈控制器844的输出。\n注意到以下是重要的,由于姿势处理系统以具体的百分比可靠度预测姿势,将百分比可靠度并入所预测的非口头交流的交流中给接收者提供接收者可以信赖姿势解释的可靠度的理解。在图8所示的示例中,例如,通过在附图标记840处变暗、通过由触觉反馈控制器842输出的脉动的强度、以及通过包括由音频反馈控制器844输出的百分比可靠度的音频消息,来向用户警示预测姿势中的百分比可靠度。另外的指示符可以包括:调节音频反馈的输出以指示百分比可靠度,在消息中插入文本以指示百分比可靠度、以及对输出界面的其他音频、图形、与文字调节以指示姿势对象输出的预测准确度。例如,为了指示图形姿势输出对象(诸如表示姿势的图标)中的预测准确度,可以通过调节图标的透明度、颜色、音调、大小、或字体来传达百分比可靠度。姿势对象控制器810可以将具有50%百分比可靠度的微笑脸的图标调节为50%透明度和黄色,并且将具有75%百分比可靠度的微笑脸的图标调节为25%透明度和绿色,其中当从最低可靠度到最高可靠度变化时,颜色从红色变化到黄色变化到绿色。\n现在参照图9,方框图图示姿势检测接口和姿势对象输出接口的一个示例。在该示例中,图9包括头戴式装置(headpiece)900,其为可佩带的装置。人、动物、或其他可移动实体可以佩带该头戴式装置900。在该示例中,头戴式装置900为一副眼镜,然而,在另外或替代实施例中,头戴式装置900可以表示其他类型的可佩带装置。\n在该示例中,图像捕获设备902和图像捕获设备904每个都被附加到头戴式装置900。图像捕获设备902和图像捕获设备904的每一个捕获视频图像流和其他类型的感测数据。图像捕获设备902和图像捕获设备904的每一个可以通过有线连接或通过被附加到头戴式装置900的无线传输器910的传输,而将图像和数据传输到实现姿势处理系统914的计算机系统912。\n在一个示例中,计算机系统912为诸如计算机系统500的、由佩带头戴式装置900的用户携带或佩带的本地移动计算系统。例如,可以在例如腰带(hip belt)附接的计算系统、无线电话设备、或膝上型计算系统中实现作为本地、移动计算系统的计算机系统912。在另一示例中,计算机系统912保持在固定位置,而是从无线传输器910或在与计算机系统912相关联的接收机的广播接收范围内的其他无线传输器接收无线传输。\n姿势处理系统914可以在计算机系统912内运行,或者可以与提供姿势处理服务的其他计算系统进行连接(interface),以便处理所捕获的图像和数据并返回来自所捕获的图像和数据的预测姿势。具体地,计算机系统912可以包括有线或无线的网络接口,通过该接口计算机系统912经由网络502与其他计算系统进行连接。\n在一个示例中,图像捕获设备902和图像捕获设备904被放置在头戴式装置900上,以便三维地捕获用户鼻子相对于用户环境的运动,从而更准确地预测与用户的头部运动相关联的姿势。因此,替代从前面捕获用户的视频图像并且检测由不同身体部分作出的姿势动作,图像捕获设备902和图像捕获设备904仅三维地捕获用户作出的运动的具体观察(perspective),并且姿势处理系统914可以更有效地处理仅限于具体观察的图像和预测姿势。在另一示例中,图像捕获设备902和图像捕获设备904可以被放置在头戴式装置900上,以捕获用户手的或其它独立的运动区域与用户环境相比较的运动。\n在另一示例中,图像捕获设备902和图像捕获设备904可以被放置来捕获用户前面的图像。因此,图像捕获设备902和图像捕获设备904检测用户在图像捕获设备的范围内作出的姿势,并且也检测由用户前面的其他人作出的所有姿势。对于具有视力缺陷的用户,通过检测用户前面的图像,用户可以从姿势处理系统914接收反馈,该反馈指示用户前面可视的姿势和其他非口头的交流。另外,对于具有视力缺陷的用户,该用户可以训练姿势处理系统914,以检测将对用户最有用的具体类型的对象和具体类型的姿势动作。例如,用户可以训练姿势处理系统914来识别具体的人和识别由那些具体的人作出的姿势。另外,用户可以训练姿势处理系统914来识别动物和识别由动物作出的、指示该动物是否友善的姿势,诸如左右摆尾。\n在另一示例中,一个或多个图像捕获设备902和图像捕获设备904被放置来捕获在用户可视范围之外(诸如,用户头部后面的区域或当用户俯视时用户前面的区域)的图像。因此,图像捕获设备902和图像捕获设备904被放置来检测用户视线之外的姿势,姿势处理系统914可以被训练来检测用户视线之外的、用户指示接收其通知的偏好的具体类型的对象或运动。例如,在讲话者经常转过身子或看不到全部听众的教学环境中,讲话者训练姿势处理系统914来检测指示在演讲过程中听众是否正在全神贯注、正在迷惑、正在举手等待问问题的具体类型的姿势,或者对演讲者重要的其他类型的可检测姿势。\n另外,在该示例中,音频输出设备906和音频输出设备908被附加到头戴式装置900,并且被放置为用于在用户耳朵内输出音频的听筒。音频输出设备906和音频输出设备908的每一个可以经由有线连接而从计算机系统912接收或者从无线传输器910接收用于输出的音频传输。具体地,姿势使能的应用916包括姿势对象控制器918和姿势对象转换数据库920,如参照图8类似地描述的。一旦经由网络通信从姿势处理系统914或其他姿势处理系统接收到预测姿势,姿势对象控制器918就从姿势对象转换数据库920确定用于将预测姿势转换成用户可检测输出的输出类别,姿势对象控制器918控制所选择的姿势对象的输出。具体地,姿势对象转换数据库920可以包括预测姿势到基于音频输出的姿势对象的转换,诸如姿势对象控制器918控制姿势对象到音频输出设备906和音频输出设备908的音频输出。\n在一个示例中,图像捕获设备902和图像捕获设备904捕获与用户谈话的人的姿势,姿势处理系统914接收所捕获的图像并预测具有80%可靠度的“点头”姿势,姿势处理系统914将具有百分比可靠度的预测姿势“点头”传递给姿势使能的应用916,姿势使能的应用916将该预测姿势和百分比转换成“80%可能的点头是”的音频输出对象,姿势使能的应用916控制所转换的音频到音频输出设备906和音频输出设备908的输出。\n在另一示例中,图像捕获设备902和图像捕获设备904捕获用户后面的多个人作出的姿势。姿势处理系统914接收所捕获的图像,并且对于每个人,利用声音识别、面部识别、或其他生物统计信息之一来检测每个人的身份,并且存取与所识别的人相关联的姓名或昵称。另外,姿势处理系统914检测那个人的相对位置并预测那个人作出的姿势,诸如“约翰在左侧区域(John inleft quarter)”给出具有90%可靠度的“拇指向上”的预测姿势。姿势处理系统914将预测姿势、可靠度、以及这个人的位置传递给姿势使能的应用916,姿势使能的应用916将预测姿势、百分比可靠度、以及位置转换成音频输出对象“你右后方的人作出90%可能的拇指向上”,姿势使能的应用916控制所转换的音频到音频输出设备906和音频输出设备908的输出。\n另外,姿势使能的应用916可以控制预测姿势到其他输出接口的输出。例如,尽管没有示出,头戴式装置900的眼镜可以包括三维的、在眼镜内可检测的或从眼镜凸出的图形输出接口。姿势使能的应用916可以将预测姿势转换成眼镜输出接口内的图形对象输出。\n注意到以下是重要的,尽管在示例中,图形捕获设备902、图形捕获设备904、视频输出设备906、以及音频输出设备908被附加到同一头戴式装置900,但是在替代实施例中,图像捕获设备也可以被附加到与音频输出设备分离的头戴式装置。另外,注意到以下是重要的,尽管在示例中,计算机系统912包括姿势处理系统914和姿势使能的应用916两者,但是在替代实施例中,不同的计算系统可以实现姿势处理系统914和姿势使能的应用916的每一个。\n另外,注意到以下是重要的,多个人中的每个人可以佩带一个单独的头戴式装置,其中每个头戴式装置上的图像捕获设备捕获的图像经由无线或有线网络连接而传送到同一计算机系统,诸如计算机系统912。通过从多个人收集协作的图像和数据,姿势处理系统914可以更准确地检测表示姿势的对象并且从所检测的运动对象预测姿势。\n此外,注意到以下是重要的,多个本地移动计算机系统(每个从被附加到头戴式装置的图像捕获设备和传感器收集图像和数据)可以经由无线网络连接或有线网络连接彼此通信,并且可以共享所收集的图像、数据、所检测到的对象、以及预测姿势。在一个示例中,本地无线网络广播区域内的一组用户可能统一通信连接到另一用户的便携式计算机设备,并且在设备之间共享图像和数据,使得可存取每个设备的姿势处理系统可以更准确地从协作的图像和数据中预测姿势。\n在任一示例中,其中协作的图像和数据在单个系统处收集或者在多个系统之间共享,可以向该图像和数据中添加另外的信息或者可以从该图像和数据中提取另外的信息,以使得所捕获的图像和数据的不同集合相对于所捕获的图像和数据的其他集合的放置较容易。例如,为协作而传输的图像和数据可以包括位置指示符和方向指示符,使得图像和数据的每个集合可以被对准并朝向图像和数据的其他集合。\n现在参照图10,示意图图示了用于指示姿势对象输出的触觉可察觉的反馈设备的一个示例。如所图示的,人可以佩带腕带1004和1008,其每一个包括用于控制触觉可察觉的输出的控制器、以及可被控制来建立触觉可察觉的输出的硬件。触觉可察觉的输出的示例可以包括可察觉的脉动、可察觉的腕带表面的变化、以及可以被佩带腕带1004和1008的用户感测的其他调节。另外,可以以频率、强度、持续时间、以及可以被佩带腕带1004和1008的用户感测的其他特性来调节触觉可察觉的输出。\n在该示例中,腕带1004包括无线发射器1002,腕带1008包括无线发射器1006。无线发射器1002和无线发射器1006的每一个经由无线网络传输与触觉反馈控制器1000通信。触觉反馈控制器1000从姿势使能的应用1010接收触觉信号,并将信号传输到无线发射器1002和1006的每一个以命令从腕带1004和1008的触觉输出。\n姿势使能的应用1010检测由姿势处理系统作出的预测姿势,并将该预测姿势转换成姿势输出对象。具体地,姿势使能的应用1010可以将预测姿势转换成触觉反馈输出,如图8中参照姿势对象转换数据库812内的、以附图标记830图示的触觉反馈类别所图示的。\n具体地,在将预测姿势转换成触觉反馈输出时,姿势使能的应用1010可以将姿势转换成具有具体反馈强度的、具有具体输出模式的、腕带1004和1008之一或两者处的反馈。具体地,一个人可以迅速地得知:右腕上的脉动意味着“是”,左腕上的脉动意味着“否”,然而,一个人可能不能记住对于每个不同类型的姿势的不同的触觉反馈输出。因此,用户可能经由姿势使能的应用1010将经由触觉反馈的预测姿势输出的类型限制到有限数目的姿势,该有限数目的姿势是被转换成用户可以记住的触觉反馈输出类型的姿势。另外,用户可以使姿势使能的应用1010认识到用户可以检测并容易地记住的触觉反馈的类型,并且用户可以指定哪些触觉反馈类型与具体预测姿势相关联。\n在该示例中,触觉反馈控制器1000和姿势使能的应用1010在计算机系统1020上启用,该计算机系统1020可以是本地的、移动计算机系统,诸如图9的计算机系统912。另外,触觉反馈控制器1000和姿势使能的应用1010可以分布在经由网络连接通信的多个计算机系统上。\n具体地,对于其视力在某些方面受损的用户或者对讲话者没有直接视线的用户,提供指示在用户周围作出的姿势或由与用户交流的其他人作出的姿势的触觉反馈输出,需要将非口头姿势动作转换成用户可察觉的非口头交流。注意到以下是重要的,尽管腕带1004和1008作为位于两个固定位置处的一种类型的触觉反馈设备的示例,但是在替代实施例中,可以实现其他类型的触觉反馈设备,可以实现一个或多个触觉设备,并且可以在一个或多个位置察觉触觉设备。例如,许多电话设备已经包括振动特征,姿势使能的应用1010可以通过发送信号控制该振动特征,从而控制表示预测姿势的振动。在另一示例中,用户可以佩带触觉可察觉的手套,该手套作为Braille设备,且在手套的手指中具有触觉可调节的接口。\n注意到以下是重要的,用户可以佩带头戴式装置900以及触觉可察觉腕带1004和1008两者。在该示例中,姿势使能的应用916可以控制到触觉反馈控制器1000和无线发射器910中的任一个或两者的输出。此外,头戴式装置900可以包括检测什么时候音频围绕用户的麦克风(未示出),姿势对象控制器918可以选择当噪声低于特定级别时输出音频姿势对象以及当噪声高于特定级别时输出触觉可察觉的姿势对象。因此,姿势对象控制器918基于所检测的围绕用户的通信的类型而调节所选择的姿势对象的类别。\n现在参照图11,方框图图示了用于姿势数据库系统的姿势学习控制器的一个示例。在该示例中,姿势数据库服务器1100包括姿势学习控制器1102、姿势数据库1104、以及姿势建立数据库1106。姿势建立数据库1106包括用户要求的供执行的姿势的数据库,以便在姿势数据库1104中建立用户的姿势简档。在该示例中,姿势学习控制器1102向客户端系统发送姿势建立请求1108以在用户界面1110显示。在该示例中,如以附图标记1112所图示的,姿势建立请求请求用户点头指示强烈同意。该用户可以在用户界面1110内选择用来记录的可选选项,如以附图标记1114所示。一旦选择,就将所捕获的用户的视频图像作为用户姿势模式1116发送到姿势数据库服务器1100。具体地,姿势学习控制器1102例如通过与浏览器通信、通过applet、或者通过在客户端系统处可用的接口连接选项来控制请求的显示和用户模式的记录。\n姿势学习控制器1102接收姿势模式并且可以通过3D姿势检测器传递该姿势模式。因此,姿势学习控制器1102响应对具体类型的姿势的请求而学习具体姿势的3D对象属性。\n在学习用户的典型姿势模式时,姿势学习控制器1102利用由特定用户作出的姿势的基本集合来更新姿势数据库1104。具体地,在请求用户作出姿势时,姿势建立数据库1106可以包括用于建立同一姿势、但是随着时间、位置或其他环境因素而变化的输入。另外,具体的建立数据库1106可以包括用于建立同一姿势、但是随着强度而变化的输入,以指示不同的响应级别。此外,具体的建立数据库1106可以包括用于建立与其他姿势相关联的具体姿势的输入以指示不同的含义。例如,具体的手部姿势的含义可以基于伴随的面部表情而变化。\n姿势数据库1104根据多个姿势描述因素指定每个姿势定义输入,该多个姿势描述因素包括但不限于姿势名称、3D姿势属性映射、所检测的身体部分、运动类型、运动速度、频率、运动范围、运动深度、皮肤或身体温度、以及皮肤颜色。另外,姿势数据库1104利用影响姿势含义的因素指定每个姿势输入,该影响姿势含义的因素包括但不限于姿势强度、与该姿势相关地作出的姿势、环境因素、用户ID、相关联的姿势使能的应用、以及影响具体姿势映射定义的其他因素。此外,姿势数据库1104包括用于跟踪对每个姿势定义输入进行的调节的输入。另外,姿势数据库1104包括用于跟踪用户确认具体姿势定义匹配预测姿势的每个时间的输入。\n具体地,3D姿势检测服务或姿势解释器服务可以触发姿势学习控制器1102,以询问用户预测姿势是否正确地描述用户作出的实际姿势。在该示例中,姿势学习控制器1102向客户端系统传送确认请求1130,以在用户界面1132内显示。如所示的,用户界面1132包括在附图标记1134处示的、供用户确认具体检测姿势是否是点头的请求。在一个示例中,姿势学习控制器1102可以传输包括预测姿势的、所捕获的视频图像的片断(clip)。用户然后可以从可选选项1136的一个中选择响应,该可选选项1136包括可选按钮“是”、可选按钮“否”、或可选按钮“调节”。通过选择“调节”,进一步促使用户指示应当已经预测了什么姿势。\n在替代实施例中,姿势学习控制器1102可以经由其他输出界面询问用户。例如,姿势学习控制器1102可以向耳机或另一输出界面发送音频输出询问,请求用户指示用户是否刚刚执行了具体姿势,用户可以通过说出答案、打字出答案、在显示界面中选择答案、或者通过作出指示响应的姿势来响应。在另一示例中,姿势学习控制器1102可以经由触觉反馈设备向用户提供反馈,其中该反馈向用户指示刚刚检测到了用户作出的什么姿势;用户可以通过其他输入指示触觉反馈是否指示用户打算作出的姿势。\n现在参照图12,高级逻辑流程图示出姿势处理系统的、用于预测具有百分比可靠度的姿势的处理和程序。在该示例中,处理在方框1200处开始,此后进行到方框1202。方框1202说明经由立体图像捕获设备捕获聚焦区域中的多个图像流以及聚焦区域中经由传感器捕获传感器数据。接下来,方框1204说明在图像和传感器数据中跟踪对象。此后,方框1206示出产生所跟踪对象的3D对象属性的流。此后,方框1208描述聚集每个所跟踪对象的3D对象属性。接下来,方框1210说明了从来自多个姿势定义中的、以百分比可靠度匹配3D对象属性的集合流的一个或多个姿势定义的3D对象属性的集合流预测至少一个姿势。此后,方框1210描述将每个预测姿势和百分比可靠度传输给姿势使能的应用,并且处理结束。\n现在参照图13,高级逻辑流程图示出通过在图像流和其他感测数据中跟踪对象并且产生所跟踪对象的3D对象属性而进行的姿势检测的处理和程序。如所图示的,处理在方框1300处开始,此后进行到方框1302。方框1302示出了经由立体图像捕获设备接收多个视频图像流并经由一个或多个传感器接收感测数据的姿势检测器系统。接下来,方框1304说明姿势检测器系统将元数据附加到视频图像帧和感测数据,并且处理转到方框1306。在一个示例中,元数据包括诸如但不限于摄像机标识符、帧号、时间戳、以及像素量的数据。另外,元数据可以包括在视频图像中所捕获的用户的标识符、以及用户所参与的电子通信会话的标识符。\n方框1306示出姿势检测器系统处理每个视频图像流和感测数据,以检测并跟踪对象。接下来,方框1308说明利用元数据从每个视频流产生所跟踪对象属性的流。此后,方框1310示出组合所跟踪对象属性以利用元数据产生3D对象属性。接下来,方框1312说明将3D跟踪对象属性传输到姿势解释器系统,并且处理结束。\n现在参照图14,高级逻辑流程图示出了用于从所跟踪的3D对象属性进行姿势预测的处理和程序。在该示例中,处理在方框1400处开始,此后进行到方框1402。方框1402示出姿势解释器系统是否接收了3D对象属性的确定。当姿势解释器系统接收了3D对象属性时,处理转到方框1404。方框1404示出存取可应用的姿势定义的范围,处理进行到方框1406。可应用的姿势定义可以基于将被传输预测姿势的姿势使能的应用而变化。例如,如果姿势使能的应用是电子通信控制器,则可以基于所检测的用户ID、会话ID、或通信服务提供者ID来选择可应用的姿势定义。在另一示例中,如果姿势使能的应用是对可佩带的触觉可察觉设备的触觉反馈应用,所述可佩带的触觉可察觉设备用于根据从可佩带的图像捕获设备检测的图像提供反馈,则可以基于佩带该设备的用户的标识符以及基于在图像捕获设备的聚焦区域内检测到的其他人的身份来选择可应用的姿势定义。\n方框1406说明姿势解释器系统将所跟踪对象的3D对象属性与可应用的姿势定义进行比较。接下来,方框1408示出姿势解释器系统对于一个或多个所跟踪对象检测最近似匹配3D对象属性的至少一个姿势定义。此后,方框1410说明计算3D对象属性传达每个预测姿势的百分比可靠度。接下来,方框1412描述产生预测姿势记录,所述预测姿势记录具有包括每个预测姿势被准确地预测的百分比可靠度的元数据。此后,方框1414示出向具体姿势使能的应用传输每个预测姿势和元数据,并且处理结束。\n现在参照图15,高级逻辑流程图示出用于将预测姿势应用在预测使能的电子通信系统中的处理和程序。如所图示的,处理在方框1500处开始,此后进行到方框1502。方框1502示出姿势使能的电子通信系统是否接收到具有元数据的预测姿势的确定。当电子通信系统接收到具有元数据的预测姿势时,处理进行到方框1504。方框1504示出电子通信系统检测与预测姿势相关联的通信会话ID和用户ID,并且处理进行到方框1506。在一个示例中,电子通信系统可以从与预测姿势一起接收到的元数据中检测通信ID和用户ID。\n方框1506示出基于在用户ID的用户简档中指定的类别偏好选择对象输出类别。接下来,方框1508说明存取用于预测姿势类型的所选择的类别的具体输出对象。此后,方框1510示出基于预测姿势转换具体输出对象,以包括百分比可靠度的表示。接下来,方框1512说明与所识别的通信会话相关联地控制转换输出对象的输出,并且处理结束。\n现在参照图16,高级逻辑流程图示出用于在姿势使能的触觉反馈系统中应用预测姿势的处理和程序。如所图示的,处理在方框1600处开始,此后进行到方框1602。方框1602示出了姿势使能的触觉反馈系统是否接收到预测姿势的确定。当姿势使能的触觉反馈系统接收到预测姿势时,处理进行到方框1604。方框1604说明姿势使能的触觉反馈系统存取由佩带触觉反馈设备的用户所指定的预测姿势类型的具体的触觉输出对象。接下来,方框1606示出基于预测姿势的百分比可靠度转换具体输出对象。此后,方框1608说明控制信号到触觉可察觉设备的输出,以控制所转换的输出对象经由触觉反馈设备的触觉输出,并且处理结束。\n尽管已经参照偏好实施例具体地示出并描述了本发明,但是本领域技术人员应该懂得在不偏离本发明的精神和范围的条件下可以在形式和细节方面作出各种改变。
法律信息
- 2017-10-27
未缴年费专利权终止
IPC(主分类): H04N 7/15
专利号: ZL 200710148709.6
申请日: 2007.09.06
授权公告日: 2010.06.09
- 2010-06-09
- 2008-05-07
- 2008-03-12
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2006-04-26
|
2003-10-06
| | |
2
| | 暂无 |
2006-01-10
| | |
3
| |
2002-10-09
|
2000-07-28
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |