著录项信息
专利名称 | 在运动捕捉系统中识别用户意图 |
申请号 | CN201110024963.1 | 申请日期 | 2011-01-14 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | | 公开/公告号 | |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F3/01 | IPC分类号 | G;0;6;F;3;/;0;1;;;G;0;6;F;1;9;/;0;0查看分类表>
|
申请人 | 暂无 | 申请人地址 | 美国华盛顿州
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 微软技术许可有限责任公司 | 当前权利人 | 微软技术许可有限责任公司 |
发明人 | R·马尔科维奇;S·G·拉塔;K·A·盖斯那;J·T·斯蒂德;D·A·贝内特;A·D·万斯 |
代理机构 | 上海专利商标事务所有限公司 | 代理人 | 胡利鸣;钱静芳 |
摘要
本发明提供了在运动捕捉系统中识别用户意图的系统和方法。用于方便在运动捕捉系统中与应用交互的技术允许个人在没有手动设置的情况下容易地开始交互。深度相机系统跟踪物理空间中的个人,并评估该个人参与应用的意图。可评估诸如位置、姿态、移动和语音数据等因素。可评估深度相机的视野中的绝对位置,以及相对于另一个人的位置。姿态可以包括面向深度相机,指示交互意愿。移动可以包括朝向或远离物理空间中的中央区域移动、走过视野、以及当一般站在一个位置时发生的移动,如四周移动一个人的手臂、摆姿势、或将重量从一只脚移到另一只脚。语音数据可包括音量以及由语音识别检测到的单词。
1.一种用于在运动捕捉系统中识别个人参与应用的意图的处理器实现的方法,包括以下处理器实现的步骤:
跟踪所述运动捕捉系统的视野中的所述个人的身体,所述跟踪包括区分所述视野中的所述个人的身体;
基于所述跟踪,确定所述个人在第一时间不打算参与所述应用;
基于所述跟踪,确定所述个人在第二时间打算参与所述应用;以及
响应于确定所述个人打算参与所述应用,通过在所述应用中将简档和化身自动与所述个人相关联,在显示器上的虚拟空间中显示所述化身,并且在所述个人通过移动所述个人的身体来控制所述化身从而参与所述应用时基于对所述视野中的所述个人的身体的后续跟踪来更新所述显示器,来允许所述个人参与所述应用;
发起了所述个人对所述应用的参与之后:
当在短于指定时间段的时间段内在所述视野中未检测到所述个人的身体,且随后再一次在所述视野中检测到所述个人的身体时,允许所述个人继续参与所述应用而无需再一次确定所述个人参与所述应用的打算;以及
当在长于所述指定时间段的时间段内在所述视野中未检测到所述个人的身体,且随后再一次在所述视野中检测到所述个人的身体时,不允许所述个人继续参与所述应用,直到再一次确定所述个人打算参与所述应用。
2.如权利要求1所述的处理器实现的方法,其特征在于:
所述指定时间段是基于所述个人的身体是否已被检测到离开所述视野来设置的。
3.如权利要求1到2中任一项所述的处理器实现的方法,其特征在于:
所述应用在所述第一时间处于非活动模式,且响应于确定所述个人打算参与所述应用,在所述第二时间将所述应用设为活动模式。
4.如权利要求1所述的处理器实现的方法,其特征在于,还包括基于对所述视野中的所述个人的身体的后续跟踪:
确定在所述第二时间之后,在第三时间所述个人打算脱离所述应用,响应于此,自动存储所述简档和化身并将其索引到所述个人的标识符;以及
确定在所述第三时间后,所述个人在第四时间展示出重新参与所述应用的意图,响应于此,所述个人基于所存储的简档和化身重新参与所述应用。
5.如权利要求4所述的处理器实现的方法,其特征在于:
所述简档指示所述个人在玩游戏时的进展,且所述个人的进展在所述个人重新参与所述应用时被维持。
6.如权利要求1所述的处理器实现的方法,其特征在于:
所述确定所述个人打算参与所述应用包括确定所述个人的身体摆好姿势且面向所述运动捕捉系统中的相机。
7.如权利要求1所述的处理器实现的方法,其特征在于:
所述确定所述个人打算参与所述应用包括处理所述个人的语音数据以及以下的至少一个:检测指示参与所述应用的意图的言语,检测指示参与所述应用的意图的语音音量。
8.如权利要求1所述的处理器实现的方法,其特征在于:
所述确定所述个人打算参与所述应用包括确定所述个人的身体在所述视野中正在参与所述应用的另一个人的侧面且与所述另一个人在指定距离内。
9.如权利要求8所述的处理器实现的方法,其特征在于,还包括:
经由网络从另一运动捕捉系统接收数据,当所述另一个人通过移动所述另一个人的身体来控制所述虚拟空间中的另一化身来从远程位置参与所述应用时,所述另一运动捕捉系统跟踪所述另一运动捕捉系统的视野中的所述另一个人的身体;以及
响应于所述数据,在所述显示器的虚拟空间中与被确定为打算参与所述应用的所述个人的化身一起显示所述另一化身,且在所述另一个人通过移动所述另一个人的身体来控制所述另一化身来参与所述应用时更新所述显示器。
10.一种用于在运动捕捉系统中识别个人参与应用的意图的处理器实现的系统,包括:
用于跟踪所述运动捕捉系统的视野中的所述个人的身体的装置,所述跟踪包括区分所述视野中的所述个人的身体;
用于基于所述跟踪,确定所述个人在第一时间不打算参与所述应用的装置;
用于基于所述跟踪,确定所述个人在第二时间打算参与所述应用的装置;
用于响应于确定所述个人打算参与所述应用,通过在所述应用中自动将简档和化身与所述个人相关联,在显示器上的虚拟空间中显示所述化身,以及当所述个人通过移动所述个人的身体来控制所述化身而参与所述应用时基于对所述视野中的所述个人的身体的后续跟踪来更新所述显示器,来允许所述个人参与所述应用的装置;
用于在发起了所述个人对所述应用的参与之后:
当在短于指定时间段的时间段内在所述视野中未检测到所述个人的身体,且随后再一次在所述视野中检测到所述个人的身体时,允许所述个人继续参与所述应用而无需再一次确定所述个人参与所述应用的打算的装置;以及
当在长于所述指定时间段的时间段内在所述视野中未检测到所述个人的身体,且随后再一次在所述视野中检测到所述个人的身体时,不允许所述个人继续参与所述应用,直到再一次确定所述个人打算参与所述应用的装置。
11.如权利要求10所述的系统,其特征在于,进一步包括用于基于对所述视野中的所述个人的身体的后续跟踪:
确定在所述第二时间之后,在第三时间所述个人打算脱离所述应用,响应于此,自动存储所述简档和化身并索引到所述个人的标识符的装置;以及
确定在所述第三时间后,所述个人在第四时间展示出重新参与所述应用的意图,响应于此,所述个人基于所存储的简档和化身重新参与所述应用的装置。
12.如权利要求10所述的系统,其特征在于:
用于为了确定所述个人打算参与所述应用,处理所述个人的语音数据,并执行以下的至少一个的装置:检测指示参与所述应用的意图的言语,检测指示参与所述应用的意图的语音音量。
13.如权利要求10所述的系统,其特征在于,所述运动捕捉系统包括:
具有视野的深度相机系统;
显示器;以及
所述处理器,其中所述处理器与所述深度相机系统和所述显示器通信。
在运动捕捉系统中识别用户意图\n技术领域\n[0001] 本发明涉及运动捕捉系统,尤其涉及运动捕捉系统中的用户意图识别。\n背景技术\n[0002] 运动捕捉系统获得关于人或其他主体在物理空间中的位置和移动的数据,并可使用该数据作为计算系统中的某一应用的输入。可能有许多应用,如出于军事、娱乐、体育和医疗目的。例如,人的运动可被映射到三维人类骨架模型并用于创建动画人物或化身。包括使用可见和不可见(例如,红外)光的系统在内的光学系统使用相机来检测视野中的人的存在。可对人放置标记来帮助检测,但也已经开发了无标记系统。某些系统使用由人携带或附带的惯性传感器来检测移动。例如,在某些视频游戏应用中,用户握住可在玩游戏时检测移动的无线控制器。然而,需要允许人与应用更自然地交互的进一步改进。\n发明内容\n[0003] 提供了一种用于在使用运动捕捉系统的物理空间中识别用户与应用交互的意图的处理器实现的方法、运动捕捉系统和有形计算机可读存储。\n[0004] 为最大化运动捕捉系统所提供的娱乐或其他体验的可及度,为人们提供了简化的自动化技术来例如通过登录或登出体验以极少或没有显式动作进入并离开该体验。允许个人只需向前走并开始在运动捕捉系统中玩,当完成了玩游戏时走开,并再次返回来从他或她离开的地方继续玩游戏。个人参与或脱离应用的意图基于来自个人的位置、移动、姿态和/或语音数据来确定。此外,也可检测诸如旁观者等在运动捕捉系统的视野中的其他人的意图。\n[0005] 在一个实施例中,提供了一种用于在运动捕捉系统中识别个人参与应用程序的意图的处理器实现的方法。该方法包括在运动捕捉系统的视野中跟踪个人的身体。这种跟踪诸如通过使用骨架模型来标识个人的移动,来区分视野中的个人。基于该跟踪,该方法确定该个人在第一时间不打算参与应用,但在第二时间的确打算参与应用。当个人打算参与应用时,允许他或她参与该应用。采取各种步骤来方便该参与,由此缓解了个人在键盘或其他手动输入设备上提供诸如输入口令和登录用户id等的手动输入的需要。具体地,可自动生成简档和化身并将其与个人相关联。化身可被显示在显示器上的虚拟空间中。显示器在个人通过移动该人的身体来控制化身而参与应用时基于在视野中对该个人的身体的后续跟踪来更新。\n[0006] 提供本概要以用简化形式介绍在下面的说明书中进一步描述的一些概念。本概述并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。\n附图说明\n[0007] 图1a和1b描绘了其中用户与模拟拳击比赛的应用交互的运动捕捉系统的一个示例实施例。\n[0008] 图2描绘了图1a的运动捕捉系统10的示例框图。\n[0009] 图3描绘了可以在图1a的运动捕捉系统中使用的计算环境的示例框图。\n[0010] 图4描绘了可以在图1a的运动捕捉系统中使用的计算环境的另一示例框图。\n[0011] 图5描绘了用于允许个人与运动捕捉系统交互的方法。\n[0012] 图6a描绘了用于如图5的步骤500所述地跟踪个人的移动的示例方法。\n[0013] 图6b描绘了如图6a的步骤608所述的个人的示例模型。\n[0014] 图6c描绘了如图6a的步骤608所述的个人的另一示例模型。\n[0015] 图7a描绘了用于如图5的步骤502所述地确定个人是否打算参与应用的示例方法。\n[0016] 图7b描绘了如图7a的步骤700所讨论的,在其中相对于预定义位置来评估个人的位置的视野的示例。\n[0017] 图7c描绘了如图7a的步骤700所讨论的,在其中相对于另一个人来评估个人的位置的视野的示例。\n[0018] 图7d描绘了如图7a的步骤704所讨论的,在其中评估个人的移动的视野的示例。\n[0019] 图8a描绘了用于如图5的步骤504所述地方便个人参与应用的示例方法。\n[0020] 图8b描绘了用于在另一用户当前正在参与应用时如图5的步骤504所述地方便个人参与该应用的示例方法。\n[0021] 图9a描绘了用于如图5的步骤506所述地在参与应用期间监视个人的示例方法。\n[0022] 图9b描绘了用于如图5的步骤506所述地在参与应用期间监视个人的示例方法,其中个人脱离应用然后重新参与该应用。\n[0023] 图9c描绘了用于如图5的步骤506所述地在参与应用期间监视个人并遵循图8b的方法的示例方法,其中玩家在运动捕捉系统的视野中交换位置。\n[0024] 图9d描绘了用于如图5的步骤506所述地在参与应用期间监视个人的示例方法,其中应用的输出基于对不参与应用的另一个人的跟踪来修改。\n[0025] 图9e描绘了用于如图5的步骤506所述地在参与应用期间监视个人的示例方法,其中一个人在参与应用时取代另一个人。\n[0026] 图10a描绘了一个人参与应用,且其他人不参与该应用的示例。\n[0027] 图10b描绘了两个人参与应用,且具有显示器上的虚拟空间的共同视点的示例显示。\n[0028] 图10c描绘了两个人参与应用,且具有显示器上的虚拟空间的不同视点的示例拆分屏幕显示。\n[0029] 图10d描绘了相对于图10c的显示区域的示例拆分屏幕显示,其中当人们在物理空间中交换位置时交换显示区域。\n[0030] 图10e描绘了第一个人使用简档和化身来参与应用的示例显示。\n[0031] 图10f描绘了在图10e之后当第二个人在使用简档和化身参与应用时代替第一个人时的示例显示。\n具体实施方式\n[0032] 提供了用于允许一个人或一组人容易地在运动捕捉系统中与应用交互的各种技术。深度相机系统可跟踪物理空间中个人的位置和移动,并评估这些位置和移动来确定该个人是否打算参与应用,例如与应用交互。也可使用来自物理空间的诸如音频输入等附加信息。在某些情况下,相对于视野中的一个或多个其他人来评估个人的移动或位置。此外,提供了用于确定在应用中何时激活对应于个人的化身,以及何时修改显示来反映个人当前是否正在参与应用的技术。当个人在不同的时间参与应用时,存储信息,使得该个人可不丢失连续性地继续参与。例如,在诸如其中个人获得分数或基于他或她在游戏中的进展和花费的时间来获得特定能力的游戏等应用中,个人可以在不丢失先前所作出的进展的情况下继续玩游戏。\n[0033] 图1a和1b描绘了其中个人18与模拟拳击比赛的应用交互的运动捕捉系统10的一个示例实施例。运动捕捉系统10用于识别、分析和/或跟踪诸如个人18(也称为用户或玩家)等人类目标。\n[0034] 如图1a所示,运动捕捉系统10可包括诸如计算机、游戏系统或控制台等计算环境\n12。计算环境12可包括执行诸如教育和/或娱乐目的等应用的硬件组件和/或软件组件。\n[0035] 运动捕捉系统10还可以包括深度相机系统20。深度相机系统20可以是,例如可用于在视觉上监视诸如个人18等的一个或多个人,从而可以捕捉、分析并跟踪该人所执行的姿势和/或移动,来执行应用中的一个或多个控制命令或动作(如动画化化身或屏幕上人物)的相机,如将在下面更详细地描述的。\n[0036] 运动捕捉系统10可以连接到诸如电视机、监视器、高清电视机(HDTV)等可向用户提供视觉和音频输出的视听设备16。音频输出也可经由单独的设备来提供。为驱动视听设备16,计算环境12可包括提供与应用相关联的视听信号的诸如图形卡等视频适配器,和/或诸如声卡等音频适配器。视听设备16可经由例如,S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆等连接到计算环境12。\n[0037] 个人18可使用深度相机系统20来跟踪,使得该个人的姿势和/或移动被捕捉并用于动画化化身或屏幕上人物,和/或被解释为对计算机环境12所执行的应用的输入控制命令。因此,根据一实施例,用户18可移动他的或她的身体来控制应用和/或动画化化身或屏幕上人物。\n[0038] 作为一个示例,应用可以是其中个人18参与且其中视听设备16向个人18提供拳击对手38的视觉表示的拳击游戏。计算环境12还可使用视听设备16来提供玩家化身40的视觉表示,该视觉表示代表了该个人,并且该个人可用他的或她的身体移动来控制该视觉表示。\n[0039] 例如,如图1b所示,个人18可以在例如该个人站在其中的房间等物理空间中挥出重拳,以便使得玩家化身40在包括拳击台的虚拟空间中挥出重拳。由此,根据一示例实施例,运动捕捉系统10的计算机环境12和深度相机系统20可用于识别并分析物理空间中的个人18的重拳,使得该重拳可被解释为对模拟拳击比赛的应用的输入,以控制虚拟空间中的玩家化身40。\n[0040] 个人18的其他移动也可被解释为其他控制命令或动作,和/或用于动画化玩家化身,如上下快速摆动、闪避、滑步、封堵、用拳猛击或挥动各种不同的重拳的控制命令。此外,某些移动可被解释为可对应于除控制玩家化身40之外的动作的控制命令。例如,在一实施例中,玩家可使用移动来结束、暂停或保存游戏、选择级别、查看高分、与朋友交流等。玩家可使用移动来从主用户界面选择游戏或其他应用。由此,用户18的全范围运动可以用任何合适的方式来获得、使用并分析以与应用进行交互。\n[0041] 个人可在与应用交互时抓握诸如支柱等物体。在此类实施例中,个人和物体的移动可用于控制应用。例如,可以跟踪并利用玩家手持球拍的运动来控制模拟网球游戏的应用中的屏幕上球拍。在另一示例实施例中,可以跟踪并利用玩家手持诸如塑料剑等玩具武器的运动来控制提供海盗船的应用的虚拟空间中对应的武器。\n[0042] 运动捕捉系统10还可用于将目标移动解释为游戏和出于娱乐和休闲目的的其他应用范围之外的操作系统和/或应用控制命令。例如,事实上操作系统和/或应用的任何可控方面可由个人18的移动来控制。\n[0043] 图2描绘了图1a的运动捕捉系统10的示例框图。深度相机系统20可被配置成经由任何合适的技术,包括例如飞行时间、结构化光、立体图像等,捕捉带有包括深度图像的深度信息的视频,该深度图像可包括深度值。深度相机系统20可将深度信息组织为“Z层”,即可与从深度相机沿其视线延伸的Z轴垂直的层。\n[0044] 深度相机系统20可包括图像相机组件22,如捕捉物理空间中的场景的深度图像的深度相机。深度图像可包括所捕捉的场景的二维(2-D)像素区域,其中该2-D像素区域中的每一像素具有代表距离图像相机组件22的线性距离的相关联的深度值。\n[0045] 图像相机组件22可包括可用于捕捉场景的深度图像的红外(IR)光组件24、三维(3-D)相机26、以及红-绿-蓝(RGB)相机28。例如,在飞行时间分析中,深度相机系统20的IR光组件24可将红外光发射到物理空间上,然后可使用传感器(未示出),使用例如3-D相机26和/或RGB相机28,来检测来自该物理空间中的一个或多个目标和对象的表面的反向散射光。在某些实施例中,可以使用脉冲式红外光,从而可以测量出射光脉冲与相应的入射光脉冲之间的时间并将其用于确定从深度相机系统20到物理空间中的目标或对象上的特定位置的物理距离。可将传出光波的相位与传入光波的相位进行比较来确定相移。然后可以使用相移来确定从深度相机系统到对象或目标上的特定位置的物理距离。\n[0046] 飞行时间分析也可用于通过经由包括例如快门式光脉冲成像等各种技术来分析反射光束随时间的强度,来间接地确定从深度相机系统20到目标或对象上的特定位置的物理距离。\n[0047] 在另一示例实施例中,深度相机系统20可使用结构化光来捕捉深度信息。在该分析中,图案化光(即,被显示为诸如网格图案或条纹图案等已知图案的光)可经由例如IR光组件24被投影到场景上。在撞击到场景中的一个或多个目标或对象的表面时,作为响应,图案可变形。图案的这种变形可由例如3-D相机26和/或RGB相机28来捕捉,然后可被分析以确定从深度相机系统到目标或对象上的特定位置的物理距离。\n[0048] 根据另一实施例,深度相机系统20可包括两个或更多物理上分开的相机,这些相机可从不同角度查看场景以获得视觉立体数据,该视觉立体数据可被解析以生成深度信息。\n[0049] 深度相机系统20还可包括话筒30,话筒30包括例如接收声波并将其转换成电信号的换能器或传感器。另外,话筒30可用于接收由个人提供的诸如声音等音频信号,来控制由计算环境12运行的应用。音频信号可包括诸如说出的单词、口哨、叫声和其他话语等个人的口声,以及诸如拍手或跺脚等非口声。\n[0050] 深度相机系统20可包括与图像相机组件22进行通信的处理器32。处理器32可包括可执行指令的标准化处理器、专用处理器、微处理器等,这些指令包括例如用于接收深度图像的指令;用于基于深度图像来生成三维像素网格的指令;用于移除包括在三维像素网格中的背景以便隔离与人类目标相关联的一个或多个三维像素的指令;用于确定隔离的人类目标的一个或多个骨端的位置或定位的指令;用于基于一个或多个骨端的位置或定位来调整模型的指令;或任何其他合适的指令,这些将在下文中更详细描述。\n[0051] 深度相机系统20还可包括存储器组件34,存储器组件34可存储可由处理器32执行的指令、以及存储3-D相机或RGB相机所捕捉的图像或图像帧、或任何其他合适的信息、图像等等。根据一示例实施例,存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘、或任何其他合适的有形计算机可读存储组件。存储器组件34可以是经由总线21与图像捕捉组件22和处理器32进行通信的单独组件。根据另一实施例,存储器组件34可被集成到处理器32和/或图像捕捉组件22中。\n[0052] 深度相机系统20可以经由通信链路36与计算环境12进行通信。通信链路36可以是有线和/或无线连接。根据一个实施例,计算环境12可经由通信链路36向深度相机系统20提供时钟信号,该信号指示何时从位于深度相机系统20的视野中的物理空间捕捉图像数据。\n[0053] 另外,深度相机系统20可经由通信链路36向计算环境12提供深度信息和由例如\n3-D相机26和/或RGB相机28捕捉的图像,和/或可由深度相机系统20生成的骨架模型。\n计算环境12然后可使用该模型、深度信息和捕捉的图像来控制应用。例如,如图2所示,计算环境12可包括诸如姿势过滤器集合等姿势库190,每一姿势过滤器具有关于可由骨架模型(在用户移动时)执行的姿势的信息。例如,可为以下的每一个提供一姿势过滤器:上举或侧举一条或两条手臂,以圆圈旋转手臂,像鸟一样拍打手臂,向前、向后或向一侧倾斜,跳起来,脚跟抬起踮脚,原地走动,走到视野/物理空间中的不同位置,等等。通过将检测到的运动与每一过滤器进行比较,可标识个人执行的指定姿势或移动。也可确定执行移动的范围。\n[0054] 可将由深度相机系统20捕捉的骨架模型形式的数据以及与其相关联的移动与姿势库190中的姿势过滤器进行比较来标识用户(如骨架模型所表示的)何时执行了一个或多个特定移动。那些移动可与应用的各种控制命令相关联。\n[0055] 计算环境还可包括用于执行存储在存储器194中的指令以向显示设备196提供音频-视频输出信号并实现如此处所描述的其他功能的处理器192。\n[0056] 图3描绘了可以在图1a的运动捕捉系统中使用的计算环境的示例框图。计算环境可用于解释一个或多个姿势或其他移动并作为响应来更新显示器上的视觉空间。上面参考图1a、1b和2所描述的诸如计算环境12等的计算环境可以是诸如游戏控制台等的多媒体控制台100。多媒体控制台100包括具有1级高速缓存102、2级高速缓存104和闪存ROM(只读存储器)106的中央处理单元(CPU)101。1级高速缓存102和2级高速缓存104临时存储数据并因此减少存储器访问周期数,由此改进处理速度和吞吐量。CPU 101可以设置成具有一个以上的核,以及由此的附加的1级和2级高速缓存102和104。闪存ROM 106可存储在多媒体控制台100通电时在引导进程初始化阶段加载的可执行代码。\n[0057] 图形处理单元(GPU)108和视频编码器/视频编解码器(编码器/解码器)114形成用于高速、高分辨率图形处理的视频处理流水线。数据经由总线从图形处理单元108输送到视频编码器/视频编解码器114。视频处理流水线将数据输出到A/V(音频/视频)端口140以传输到电视机或其它显示器。存储器控制器110连接到GPU 108以方便处理器访问各种类型的存储器112,诸如RAM(随机存取存储器)。\n[0058] 多媒体控制台100包括较佳地在模块118上实现的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口控制器124、第一USB主控制器126、第二USB控制器\n128和前面板I/O子部件130。USB控制器126和128用作外围控制器142(1)-142(2)、无线适配器148、和外置存储器设备146(例如闪存、外置CD/DVD ROM驱动器、可移动介质等)的主机。网络接口124和/或无线适配器148提供对网络(例如,因特网、家庭网络等)的访问并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线和无线适配器组件中任何一种。\n[0059] 提供系统存储器143来存储在引导进程期间加载的应用程序数据。提供媒体驱动器144且其可包括DVD/CD驱动器、硬盘驱动器、或其它可移动媒体驱动器。媒体驱动器144对于多媒体控制台100可以内置或外置。应用程序数据可经由媒体驱动器144访问,以由多媒体控制台100执行、回放等。媒体驱动器144经由诸如串行ATA总线或其它高速连接等总线连接到I/O控制器120。\n[0060] 系统管理控制器122提供涉及确保多媒体控制台100的可用性的各种服务功能。\n音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元123与音频编解码器132之间传输。音频处理流水线将数据输出到A/V端口140以供外置音频播放器或具有音频能力的设备再现。\n[0061] 前面板I/O子部件130支持暴露在多媒体控制台100的外表面上的电源按钮150和弹出按钮152以及任何LED(发光二极管)或其它指示器的功能。系统供电模块136向多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。\n[0062] CPU 101、GPU 108、存储器控制器110、和多媒体控制台100内的各个其它组件经由一条或多条总线互连,包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。\n[0063] 当多媒体控制台100通电时,应用程序数据可从系统存储器143加载到存储器112和/或高速缓存102、104中并在CPU 101上执行。应用可呈现在导航到多媒体控制台100上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中,媒体驱动器144中包含的应用和/或其它媒体可从媒体驱动器144启动或播放,以向多媒体控制台100提供附加功能。\n[0064] 多媒体控制台100可通过将该系统简单地连接到电视机或其它显示器而作为独立系统来操作。在该独立模式中,多媒体控制台100允许一个或多个用户与该系统交互、看电影、或听音乐。然而,随着通过网络接口124或无线适配器148可用的宽带连接的集成,多媒体控制台100还可作为较大网络社区中的参与者来操作。\n[0065] 当多媒体控制台100通电时,保留指定量的硬件资源以供多媒体控制台操作系统作系统使用。这些资源可以包括存储器保留(例如,16MB)、CPU和GPU周期(例如,5%)、网络带宽(例如,8kbs)等。因为这些资源是在系统引导时保留的,所以所保留的资源对应用而言是不存在的。\n[0066] 具体地,存储器保留较佳地足够大,以包含启动内核、并发系统应用和驱动程序。\nCPU保留较佳地为恒定,使得若所保留的CPU用量不被系统应用使用,则空闲线程将消耗任何未使用的周期。\n[0067] 对于GPU保留,通过使用GPU中断来显示由系统应用生成的轻量消息(例如,弹出窗口),以调度代码来将弹出窗口呈现为覆盖图。覆盖图所需的存储器量取决于覆盖区域大小,并且覆盖图较佳地与屏幕分辨率成比例缩放。在并发系统应用使用完整用户界面的情况下,优选使用独立于应用分辨率的分辨率。定标器可用于设置该分辨率,从而无需改变频率,也就不会引起TV重新同步。\n[0068] 在多媒体控制台100引导且系统资源被保留之后,就执行并发系统应用来提供系统功能。系统功能被封装在一组在上述所保留的系统资源中执行的系统应用中。操作系统内核标识是系统应用线程而非游戏应用线程的线程。系统应用优选地被调度为在预定时间并以预定时间间隔在CPU 101上运行,以便为应用提供一致的系统资源视图。进行调度是为了把由在控制台上运行的游戏应用所引起的高速缓存分裂最小化。\n[0069] 当并发系统应用需要音频时,则由于时间敏感性而异步调度音频处理给游戏应用。多媒体控制台应用管理器(如下所述)在系统应用活动时控制游戏应用的音频水平(例如,静音、衰减)。\n[0070] 输入设备(例如,控制器142(1)和142(2))由游戏应用和系统应用共享。输入设备不是所保留的资源,但却在系统应用和游戏应用之间切换以使其各自具有设备的焦点。\n应用管理器较佳地控制输入流的切换,而无需知晓游戏应用的知识,并且驱动程序维持有关焦点切换的状态信息。控制台100可从包括相机26和28的图2的深度相机系统20接收附加输入。\n[0071] 图4描绘了可以在图1a的运动捕捉系统中使用的计算环境的另一示例框图。计算环境可用于解释一个或多个姿势或其他移动并作为响应来更新显示器上的视觉空间。计算环境220包括计算机241,计算机241通常包括各种有形计算机可读存储介质。这可以是能由计算机241访问的任何可用介质,而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器222包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)223和随机存取存储器(RAM)260。基本输入/输出系统224(BIOS)包括如在启动时帮助在计算机241内的元件之间传输信息的基本例程,它通常储存在ROM223中。\nRAM 260通常包含处理单元259可以立即访问和/或目前正在操作的数据和/或程序模块。\n作为示例而非局限,图4描绘了操作系统225、应用程序226、其它程序模块227和程序数据\n228。\n[0072] 计算机241还可包括其他可移动/不可移动、易失性/非易失性计算机存储介质,如从不可移动、非易失性磁介质读取或对其写入的硬盘驱动器238,从可移动、非易失性磁盘254读取或对其写入的磁盘驱动器239,以及从诸如CDROM或其他光介质等可移动、非易失性光盘253读取或对其写入的光盘驱动器240。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性有形计算机可读存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器238通常由诸如接口\n234等不可移动存储器接口连接至系统总线221,磁盘驱动器239和光盘驱动器240通常由诸如接口235等可移动存储器接口连接至系统总线221。\n[0073] 以上讨论并在图4中描绘的驱动器及其相关联的计算机存储介质为计算机241提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。例如,硬盘驱动器238被描绘为存储操作系统258、应用程序257、其它程序模块256和程序数据255。注意,这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据228相同,也可以与它们不同。操作系统258、应用程序257、其他程序模块256和程序数据255在这里被标注了不同的标号是为了说明至少它们是不同的副本。用户可以通过输入设备,诸如键盘251和定点设备252——通常被称为鼠标、跟踪球或触摸垫——向计算机241输入命令和信息。其他输入设备(未示出)可以包括麦克风、游戏杆、游戏手柄、碟形卫星天线、扫描仪等等。这些和其他输入设备通常由耦合至系统总线的用户输入接口236连接至处理单元259,但也可以由其他接口和总线结构,诸如并行端口、游戏端口或通用串行总线(USB)连接。包括相机26和28的图2的深度相机系统20可为控制台100定义附加输入设备。监视器242或其他类型的显示器也经由接口,诸如视频接口232连接至系统总线221。除监视器以外,计算机也可以包括其它外围输出设备,诸如扬声器244和打印机243,它们可以通过输出外围接口233连接。\n[0074] 计算机241可使用至一个或多个远程计算机,如远程计算机246的逻辑连接在网络化环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见的网络节点,且通常包括许多或所有以上相对于计算机241描述的元件,但是在图4中仅示出了存储器存储设备247。逻辑连接包括局域网(LAN)245和广域网(WAN)249,但也可以包括其它网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。\n[0075] 当在LAN联网环境中使用时,计算机241通过网络接口或适配器237连接至LAN \n245。当在WAN联网环境中使用时,计算机241通常包括调制解调器250或用于通过诸如因特网等WAN 249建立通信的其他装置。调制解调器250可以是内置或外置的,它可以经由用户输入接口236或其他适当的机制连接至系统总线221。在网络化环境中,关于计算机\n241所描述的程序模块或其部分可被储存在远程存储器存储设备中。作为示例而非限制,图4示出了远程应用程序248驻留在存储器设备247上。可以理解,所示的网络连接是示例性的,且可以使用在计算机之间建立通信链路的其他手段。\n[0076] 图5描绘了用于允许个人与运动捕捉系统交互的方法。步骤500包括跟踪运动捕捉系统的视野中的个人的移动和位置。步骤500的进一步细节结合图6a-c来提供。判定步骤502确定该个人是否打算参与应用。步骤502的进一步细节结合图7a-d和10a来提供。一般而言,步骤502可基于一个或多个变量来确定一个人具有指定意图的概率,且在该概率足够高时触发结果动作。\n[0077] 如果该个人不打算参与,则步骤500的跟踪继续。如果判定步骤502为真,则步骤\n504方便该个人参与应用。步骤504的进一步细节结合图8a、8b和10b-10f来提供。步骤\n506包括在参与应用期间监视个人。步骤506的进一步细节结合图9a-9d来提供。\n[0078] 例如,图5的方法可确定一个人在第一时间不打算参与应用,如当该个人首次进入视野的时候,但是在稍后的第二时间的确打算参与应用,如当该个人已经在视野中持续了几秒钟的时候。注意,该个人可能在第一时间进入视野时在他或她的脑海中已经有了参与的意图,但因为该个人尚未被观察足够长的时间,因此运动捕捉系统还未能确定该意图。\n如果应用在第一时间处于非活动模式,则可响应于确定该个人打算参与应用,在第二时间将其设于活动模式。在非活动模式中,可例如通过提供空白屏幕或屏幕保护程序显示,来抑制应用的正常视觉或音频输出,而在活动模式中时,可提供正常视觉或音频输出。\n[0079] 图6a描绘了用于如图5的步骤500所述地跟踪个人的移动的示例方法。该示例方法可以使用例如结合图2-4讨论的深度相机系统20和/或计算环境12、100或220来实现。可以扫描一个或多个人来生成模型,如骨架模型、网格人类模型、或个人的任何其他合适的表示。该模型然后可用于与由计算环境执行的应用交互。进行扫描来生成模型可以在启动或运行应用时发生,或按照所扫描的个人的应用的控制在其他时间发生。\n[0080] 可扫描个人来生成骨架模型,可跟踪该骨架模型使得用户58的物理移动或运动可用作调整和/或控制应用的参数的实时用户接口。例如,所跟踪的个人的移动可用于在电子角色扮演游戏中移动化身或其他屏幕上人物;在电子赛车游戏中控制屏幕上车辆;在虚拟环境中控制物体的构成或组织;或执行应用的任何其他合适的控制。\n[0081] 根据一个实施例,在步骤600,例如从深度相机系统接收深度信息。深度相机系统可以捕捉或观察可包括一个或多个目标的视野。在一示例实施例中,如所讨论的,深度相机系统可使用诸如飞行时间分析、结构化光分析、立体视觉分析等任何合适的技术来获得与捕捉区域中的一个或多个目标相关联的深度信息。如所讨论的,深度信息可包括具有多个所观察的像素的深度图像,其中每一所观察的像素具有所观察的深度值。\n[0082] 深度图像可以被降采样到较低处理分辨率,以使其可被更容易地使用且以更少的计算开销来处理。另外,可从深度图像中移除和/或平滑掉一个或多个高变度和/或含噪声的深度值;可填入和/或重构缺少的和/或移除的深度信息的部分;和/或可对所接收的深度信息执行任何其他合适的处理,使得该深度信息可用于生成结合图6b和6c讨论的诸如骨架模型等模型。\n[0083] 在判定步骤604,判定深度图像是否包括人类目标。这可包括对深度图像中的每一目标或对象进行泛色填充,将每一目标或对象与模式进行比较来确定该深度图像是否包括人类目标。例如,可以比较深度图像的所选区域或点中的像素的各种深度值来确定可定义如上所述的目标或对象的边。可基于所确定的边来对Z个层的可能的Z个值进行泛色填充。例如,与所确定的边相关联的像素以及边内的区域的像素可互相关联来定义可与图案进行比较的捕捉区域中的目标或对象,这将在下文中更详细描述。\n[0084] 如果判定步骤604为真,则执行步骤606。如果判定步骤604为假,则在步骤600接收附加深度信息。\n[0085] 对照其来比较每一目标或对象的模式可包括具有共同定义典型的人类身体的一组变量的一个或多个数据结构。与例如视野中的人类目标和非人类目标的像素相关联的信息可以与各变量进行比较来标识人类目标。在一个实施例中,该组中的每一变量可基于身体部位来加权。例如,模式中诸如头和/或肩等各个身体部位可具有与其相关联的、可大于诸如腿等其他身体部位的权重值。根据一个实施例,可在将目标与变量进行比较来确定目标是否以及哪一目标可以是人类时使用权重值。例如,变量与目标之间的具有较大权重值的匹配可产生比具有较小权重值的匹配更大的该目标是人类的可能性。\n[0086] 步骤606包括扫描人类目标来寻找身体部位。可以扫描人类目标来提供与个人的一个或多个身体部位相关联的诸如长度、宽度等度量,以提供该个人的准确模型。在一示例实施例中,可隔离该人类目标,并且可创建该人类目标的位掩模来扫描一个或多个身体部位。该位掩模可通过例如对人类目标进行泛色填充,使得该人类目标可以与捕捉区域元素中的其他目标或对象分离来创建。随后可分析该位掩模来寻找一个或多个身体部位,以生成人类目标的模型,如骨架模型、网格人类模型等。例如,根据一实施例,可使用由所扫描的位掩模确定的度量值来定义结合图6b和6c讨论的骨架模型中的一个或多个关节。该一个或多个关节可用于定义可对应于人类的身体部位的一根或多根骨。\n[0087] 例如,人类目标的位掩模的顶部可以与头的顶部的位置相关联。在确定了头的顶部之后,可以向下扫描该位掩模来随后确定颈的位置、肩的位置等等。例如,在所扫描的位置处的位掩模的宽度可以与和例如颈、肩等相关联的典型宽度的阈值进行比较。在替换实施例中,可以使用离位掩模中先前扫描的并与身体部位相关联的位置的距离来确定颈、肩等的位置。诸如腿、脚等的某些身体部位可基于例如其他身体部位的位置来计算。在确定了身体部位的值之后,可创建包括身体部位的度量值的数据结构。该数据结构可包括从深度相机系统在不同时间点提供的多个深度图像中平均的扫描结果。\n[0088] 步骤608包括生成人类目标的模型。在一实施例中,可使用由所扫描的位掩模确定的度量值来定义骨架模型中的一个或多个关节。该一个或多个关节用于定义可对应于人类的身体部位的一根或多根骨。例如,图6b描绘了如图6a的步骤608中所述的个人的示例模型620,而图6c描绘了如图6a的步骤608中所述的个人的另一示例模型630。\n[0089] 一般而言,每个身体部位可被表征为定义骨架模型的关节和骨骼的数学向量。身体部位可以在关节处相对于彼此移动。例如,前臂段628连接到关节626和629,而上臂段\n624连接到关节622和626。前臂段628可相对于上臂段624移动。\n[0090] 可调整一个或多个关节,直到这些关节在人类的关节和身体部位之间的典型距离范围之内,以生成更准确的骨架模型。该模型可基于例如与人类目标相关联的高度来进一步调节。\n[0091] 在步骤610,通过每秒若干次更新个人的位置来跟踪该模型。当用户在物理空间中移动时,使用来自深度相机系统的信息来调整骨架模型,使得该骨架模型表示一个人。具体地,可向该骨架模型的一个或多个受力方面施加一个或多个力,来将该骨架模型调整成更接近地对应于物理空间中的人类目标的姿态的姿态。\n[0092] 一般而言,可使用用于跟踪个人的移动的任何已知技术。\n[0093] 图7a描绘了用于如图5的步骤502所述地确定个人是否打算参与应用的示例方法。在确定个人的意图时可以考虑各种因素。可使用一个或多个因素。此外,所提供的因素可指示参与应用的意图,或作为相关但相反的概念的不参与(或脱离)的意图。例如,参与意图的低概率可等价于不参与意图的高概率。可以在诸如几秒等一段时间内频繁地(例如,每秒多次)评估各因素,以获得对个人的意图的更好理解。\n[0094] 步骤700评估视野中,例如诸如房间等物理空间中的个人的位置。例如,图7b描绘了其中相对于预定义位置来评估个人的位置的视野的示例。点700表示深度相机,而线\n722和724表示视野726的边界。可以定义包括深度相机的光轴或z轴的坐标系,该光轴例如是在其中深度相机看见物理空间的方向的中心延伸的线,其中视野通常围绕该光轴对称。如果深度相机与显示器面朝同一方向,则光轴一般垂直于显示器的平面。可以定义与z轴垂直的横轴(y轴)。第一区729是圆形的,且具有半径r1、周长728、以及沿着z轴的中心点727。第二区731是环状或环形的,具有内半径r1、外半径r2、内周长728、外周长730,且与第一区729同轴并与其相邻。对圆形且同轴的区的使用仅是示例,因为可使用其他形状,如椭圆、矩形、正方形等等。具有中心点734的圆732表示包含其参与应用的意图正被评估的个人的定界圆柱。个人的中心点734离中心点727的距离为r3。定界框或矩形可用作定界圆柱的替换。\n[0095] 例如,个人可以在例如第一区729等其中与应用交互的意图是高度可能的位置,例如区731等其中与应用交互的意图是中等可能的位置,或视野762中的在区729、731外部、其中与应用交互的意图较不可能的位置。基于位置的概率测量因此可以基于个人相对于其中与应用交互的意图是最有可能的位置(例如,区729)的位置来作出。\n[0096] 个人的位置也可相对于视野中当前正在参与应用的另一个人的位置来评估。例如,打算参与应用的个人可以站在已经参与该应用的另一个人旁边,作为例如游戏中的潜在的同队队员或对手。可以确定该个人在视野中正在参与应用的另一个人旁边且在其指定距离内。例如,图7c描绘了其中相对于另一个人来评估个人的位置的视野的示例。此处,具有中心点738的圆736表示包含当前参与应用的个人的定界圆柱,而具有中心点734的圆732表示包含其参与应用的意图正被评估的个人的定界圆柱。轴744平行于y轴,并穿过中心点736。线740和742以相对于轴744的+/-α角穿过中心点738。可以定义在线\n740和742之间的区域746,在该区域中,认为个人在圆736所表示的人的侧面或与其并排。\n可以在个人736的另一侧定义相似的区域。d1是从中心点738到中心点734的距离,并且表示由圆736和732描绘的相应个人之间的距离。可以另选地定义作为圆736和732的圆周之间的最小距离的距离。\n[0097] 此处,由圆732表示的个人当在区域746中(例如,在由圆736表示的个人的侧面)时相比由圆732表示的个人不在区域746中时可以有更大的参与意图概率与其相关联。类似地,由圆732表示的个人当在区域746中且离由圆736表示的个人相对接近的距离d1时相比由圆732表示的个人在区域746中且离由圆738表示的个人相对较远的距离可以有更大的参与意图概率与其相关联。\n[0098] 步骤702评估个人的姿态或姿势。例如,如果个人的身体面向深度相机且肩朝向深度相机摆好位置(例如,图10b中的人1022和1024),则与该人的身体未面向相机,例如肩在另一方向上摆好位置(例如,图10a中的人1026或1028)时相比,该人更有可能打算参与应用。在后一情况下,深度相机看见该人的轮廓。个人坐下(例如,图10a中的人1028)或躺下的姿态类似地不太可能指示参与应用的意图。类似地,将一个人的手臂交叉在胸前的姿态可以表示无参与意图。\n[0099] 作为特定于应用上下文的参与意图的一个示例,考虑与瑜伽练习相关的应用,在这一情况下坐着的姿态可能表示参与意图而非脱离意图。此外,用于确定参与或脱离意图的准则可以基于诸如年龄、性别、身体健全等级或伤残等因素来调整。例如,较慢的人的移动可以是参与意图,而较快的人的移动则不然。\n[0100] 可使用定时器来确定一特定姿态维持多久。较长的持续时间可以与较大的参与或脱离意图相关联。\n[0101] 基于姿态的概率测量因此可以基于个人相对于其中与应用交互的意图最有可能的姿态的姿态来作出。\n[0102] 步骤704评估个人在视野中的移动。例如,如果个人正在视野中快速移动(例如,如图10a中的视野1021中的个人1026所表示的,或对图7d中的圆732所表示的个人在箭头750的方向上),则该个人有可能只是走过视野而不打算参与应用。或者,如果个人正远离显示器移动(例如,对于图7d中的圆732所表示的个人在箭头752的方向上),则该用户可能不打算参与应用。此外,如果个人一般在一个位置上但是表现为活动的,如当环绕移动他或她的手臂时(例如,如图10a中的个人1024所表示的),或者将重量从一只脚移到另一只脚,则这可以与参与应用的较高概率相关联。类似地,如果个人一般在一个位置且表现为非常静止,这可以与参与应用的较低概率相关联。此外,移动和位置因素可以相关,例如,朝向具有较高概率的参与意图的一位置的移动可以是参与意图的较高概率的征兆。\n[0103] 个人所作出的姿势也可被认为是一种形式的移动。例如,用户可以举起他或她的手臂并在深度相机处挥动以指示该个人打算参与。此外,与意图相关的某些姿势可以特定于应用上下文,例如上下文敏感姿势。例如,可以有被预定义为表示了参与或脱离意图的姿势。姿势可以基于移动(例如,在检测到个人的手臂向侧面举起然后放下的情况下)或静态位置(例如,在检测到个人的手臂向侧面举起的情况下)来标识。\n[0104] 基于移动的概率测量可以基于个人相对于其中与应用交互的意图最有可能的移动的移动来作出。\n[0105] 步骤706评估个人的语音数据。一般而言,个人的口声可以包括说出的单词、口哨、叫声和其他话语。也可检测诸如拍手等非口声。可任选地使用方向性话筒来检测从中检测到声音的方向,并将其与所检测的个人的位置相关,以提供个人打算参与应用的概率的更可靠的测量。即使个人在视野外时,语音数据独自也可能足以确定个人的意图。\n[0106] 语音数据的存在可以与个人打算参与应用的增加的概率相关。此外,语音数据的音量或响度可以与个人打算参与应用的增加的概率相关。同样,可以检测言语,使得诸如“开始”或“准备”等命令指示参与应用的意图。由此,对个人打算参与应用的确定可以包括处理个人的语音数据并检测指示参与应用的意图的言语和/或检测指示参与应用的意图的语音音量。\n[0107] 在智力问答(trivia)游戏节目应用中,玩家通常是相对静态的,可能坐在沙发上并回答问题。在这一情况下,对新语音的存在的检测可被评估为新人参加的意图。类似地,在一段时间缺少个人的先前识别的语音可被评估为该现在安静的个人的脱离意图。\n[0108] 基于语音的概率测量可以基于个人相对于其中与应用交互的意图最有可能的语音数据的语音数据来作出。\n[0109] 一旦确定了个人打算参与应用,则如接下来讨论的那样方便该参与。注意,当确定个人打算参与应用时,或在其他适当的时刻,如当脱离时,可以提供适当的状态信息作为反馈。例如,在个人被确定为具有参与应用的意图时可由应用生成诸如门铃声等音频消息,而在个人被确定为具有脱离应用的意图时可由应用生成关门声。\n[0110] 也可在显示器上,诸如在显示器的不显眼侧或底部区域中提供诸如图标等视觉消息。该视觉消息可指示当前参与的人的数量,以及状态的改变,如当个人的参与被延缓(参见图9a)或当个人脱离(参见图9b)的时候。可以提供视觉效果,使得当加入虚拟空间时新化身淡入且正在离开的化身淡出。提供清楚的反馈,使得人们理解他们何时被绑定或未被绑定到应用。如果所有玩家脱离,则应用可被暂停或停用。\n[0111] 图8a描绘了用于如图5的步骤504所述地方便个人参与应用的示例方法。步骤\n800包括自动生成化身和简档数据。步骤802包括自动将简档和化身与个人相关联。步骤\n804包括在显示器上显示化身,并且步骤806包括例如实时地基于对个人的后续跟踪来更新显示。如果个人是当前正在参与应用的唯一个人,则应用可从待命状态转换到其中它准备好接收基于用户移动的输入的就绪状态。\n[0112] 个人不必通过任何类型的手动设置过程来参与应用,因此能够在没有延迟的情况下以“只需向前走并玩”方法来开始与应用交互。不需要诸如键盘、鼠标或手持控制器等硬件来开始交互。\n[0113] 自动生成的并与个人相关联的化身可以基于所检测到的个人的特性,如其高度、宽度、骨架模型、来自个人的衣服的RGB色彩数据等等,以及诸如语音语调和音量等可任选的音频特性。或者,可以提供默认的通用化身。个人还可能使用适当的用户界面来修改自动生成的化身。个人不必通过任何类型的手动设置过程来配置化身,并且因此能够使用化身在没有延迟的情况下开始与应用交互。在某些应用中,可在化身探索虚拟空间时修改其外观或其他特征。化身的特征还可与在虚拟空间中获得或丢失的能力(例如,“力量”)有关。在某些情况下,个人使用真实或游戏金钱来为化身购买特征,并且通过化身在虚拟空间中的动作来赢得或输掉特征。简档数据也可包括化身的特征或其他特性。当个人停止参与应用并且稍后返回时,可以访问简档数据来将该个人以及他或她的化身还原到当该个人脱离时存在的状态。\n[0114] 所生成的简档可以包括所检测到的个人的特性,如其高度、宽度、骨架模型、来自个人的衣服的RGB色彩数据等等,以及诸如语音语调和音量等可任选的音频特性。个人可通过将他或她的特性绑定到应用来绑定到应用。一般而言,诸如骨架数据等特性可在个人进入视野中时绑定到个人。简档数据因此可包括个人的标识,包括由深度相机确定的物理特性。\n[0115] 简档数据还可包括表示个人与应用的交互的信息。例如,在游戏应用中,简档数据可以指示个人所达到的分数或进展,以及个人的化身在虚拟空间中的位置。虚拟空间在诸如计算机监视器、电视屏幕等显示器上提供或投影到墙上。虚拟空间可以表示任何真实或想象的室内或室外位置。虚拟空间可包括表示个人且基于所跟踪的个人的移动来移动的化身。化身可以用摄影写实方式来描绘用户,或者化身可以是动物、车辆或其他人物或物体。\n[0116] 任选地,在联网方法中,多个人从不同位置并发地参与应用。例如,第一和第二朋友可分别在他们的家具有单独的第一和第二运动捕捉系统。他们可安排在同一时间开始在虚拟空间中交互。当第一个人通过移动他或她的身体来控制视野中的第一化身而参与应用时,第一运动捕捉系统跟踪第一运动捕捉系统的视野中的第一个人的身体。第一运动捕捉系统还经由网络从第二运动捕捉系统接收数据,在第二个人通过移动他或她的身体来控制虚拟空间中的第二化身而从远程位置参与应用时,第二运动捕捉系统跟踪第二运动捕捉系统的视野中的第二个人的身体。响应于数据,第一应用在显示器上随第一化身一起在虚拟空间中显示第二化身,并且在第二个人继续通过移动他们的身体来控制第二化身而参与应用时更新显示。第二运动捕捉系统可以类似地经由网络从第一运动捕捉系统接收数据,使得第二个人可以在他或她的显示器上同时查看两个化身。由此,两个人都经历相同的音频-视觉输出。\n[0117] 化身和/或虚拟空间的显示可以基于另一个人当前是否参与应用来调整,如接下来讨论的。\n[0118] 图8b描绘了用于在另一用户当前正在参与应用时如图5的步骤504所述地方便个人参与应用的示例方法。在步骤810,确定另一个人当前是否参与应用,且他或她的化身在显示器上。步骤812将简档和化身与新的个人,例如新识别为具有参与应用的意图的个人相关联。在更新显示器来描绘新个人的化身时可能有不同的选项。在一种方法中,在步骤814,化身被显示在显示器的相同区域中,使得它们是从相同的视点来查看的。一个示例在图10b中提供,并在下文中进一步讨论。在另一种方法中,在步骤816,化身被显示在显示器的不同区域中,使得它们是从不同的各自的视点来查看的。一个示例在图10c中提供,并在下文中进一步讨论。\n[0119] 图9a描绘了用于如图5的步骤506所述地在参与期间监视个人的示例方法。当个人在参与应用时会遇到各种情形。例如,由于个人被视野中的另一个人或物体阻挡、个人离开视野、或个人出于某一其他原因而不被检测,个人可能不再被检测到。在用于处理此类情形的示例方法中,判定步骤900确定个人是否不再被检测已持续了一段阈值时间,例如,该段时间可对应于某一数量的检测周期。通常,每秒可以有若干检测周期。适当的阈值时间段可以通过测试来确定。如果判定步骤900为假,则在步骤902,个人继续参与应用。例如,化身可保留在显示器上。\n[0120] 如果判定步骤900为真,则步骤904延缓该个人参与应用。这可包括提供适当的视觉和/或音频消息。另外,个人的化身可被停用,使得它从虚拟空间移除。化身可改为被显示在显示器的单独区域中,指示它是临时不活动的。或者,化身可保留在虚拟空间中,但具有例如变灰的外观,指示它是不活动的,例如以使它不能被移动。在有多个参与的个人且单独的屏幕区域被分配给每一个人(诸如在图10c中)的情况下,延缓可包括更新显示器,使得延缓的个人的屏幕区域被移除(诸如图10b中)。\n[0121] 任选地,判定步骤906确定个人是否被跟踪离开视野。这可例如通过跟踪个人在视野中的移动来确定该个人是否在视野的边界的方向上移动且随后不再能被检测来确定。\n如果判定步骤906为假,则假定个人仍在视野中,但可能被另一个人或例如一件家具等物体阻挡,且不能被深度相机检测到。在这一情况下,在步骤908,该个人随后被再一次检测。\n先前被检测到、然后不再被检测到、然后再一次被检测到的同一个人可基于诸如骨架模型等个人的物理特性来标识。\n[0122] 判定步骤912确定该个人是否超时,这意味着参与被延缓了比指定时间段(例如,几分钟)更长的时间。如果判定步骤912为假,在步骤916,则该个人的参与继续而不重新确定参与意图。如前一样,可由应用提供适当的视觉和/或音频消息。参与的继续可包括例如重新激活化身。在有一个或多个其他仍参与的个人的情况下,延缓可包括更新显示器,使得为其参与继续的个人提供单独的屏幕区域(如图10c中)。如果判定步骤912为真,则在步骤914,在个人能再一次参与之前,再次重新确定个人参与应用的意图。由此,该个人被认为是脱离的,直到他或她再次展示了参与意图。\n[0123] 如果判定步骤906为真,则个人已经离开了视野。在这一情况下,当在步骤910个人随后被再一次检测时,在步骤914,在个人能再次参与之前再次重新确定个人参与应用的意图。\n[0124] 图5中的示例指示个人在第一时间,如当首次进入视野中时,不打算参与应用,但是在稍后的第二时间,如几秒之后,的确打算参与应用。在图9b的示例中,个人在第二时间之后,在第三时间打算脱离应用,响应于此,自动存储简档和化身并将其索引到个人的标识符。此外,在第三时间后,个人在第四时间展示出重新参与应用的意图,响应于此,个人基于所存储的简档和化身重新参与应用。\n[0125] 图9b描绘了用于如图5的步骤506所述地在参与应用期间监视个人的示例方法,其中个人脱离应用然后重新参与该应用。在这一情况下,当一个或多个因素指示该个人打算脱离应用时,该个人当前可在视野中被检测到,并且当前参与应用(步骤910)。一般而言,可使用结合图7讨论的相同因素来确定参与或脱离的意图。例如,如果个人在视野中与低参与意图概率相关联,这对应于高脱离意图概率。如果个人具有与低参与意图概率相关联的姿态,这对应于高脱离意图概率。如果个人具有与低参与意图概率相关联的移动,这对应于高脱离意图概率。指示脱离意图的移动包括个人远离显示器走开,将其背转向显示器(同时站着不动或走开),从参与意图最有可能的位置走开,和/或走向视野的边界然后走出视野。在指定一段时间内缺少来自个人的语音数据也可以与较高的脱离意图概率相关联。\n[0126] 作为特定于应用上下文的脱离意图的一个示例,考虑需要个人在物理空间中大量来回、前后移动的应用。在这一情况下,关于脱离意图的准则可被调整来考虑此类较大的移动。在不需要大量移动的应用中,较大的移动可被认为是脱离意图的征兆。或者,对于与瑜伽练习有关的应用,可能期望坐着的姿态,且该姿态不应被认为是脱离意图的征兆。\n[0127] 步骤912存储被索引到个人的标识符的简档数据和化身数据。标识符可以与个人的物理特性相关联,如高度和宽度,以及骨架模型、可以基于音调和其他因素与特定个人相关联的语音数据、诸如衣服颜色等色彩数据、等等。个人还可说出诸如“再见”或“停”等识别的命令。某一时间之后,步骤914确定该个人打算重新参与应用。步骤916访问所存储的简档和化身数据,因此该个人可以在他或她在脱离时所离开的相同的地方重新参与应用,来维持个人体验的连续性。\n[0128] 图9c描绘了用于如图5的步骤506所述地在参与应用期间监视个人并遵循图8b的方法的示例方法,其中玩家在运动捕捉系统的视野中交换位置。判定步骤920确定玩家是否在视野中交换位置。如果是,则在步骤922,也交换个人专用显示区域。例如,如图10c所描绘的,显示器1004的区域1005提供了个人1022的化身1023,而显示器1004的区域\n1006提供了个人1024的化身1025。由此,显示区域与物理空间中的人相对应地定位,左侧的显示区域用于左侧的人,而右侧的显示区域用于右侧的人。当与应用交互时,人们可以交换位置,例如从右到左和从左到右。例如,某些应用涉及人们在物理空间中的大量移动,从而不维持固定位置。个人因此可以自然地在物理空间中侧向移动。在某些情况下,一个人阻挡另一个人对显示器的查看,使得被阻挡的人侧向移动并交换位置。\n[0129] 如果个人1022和1024交换位置使得个人1024在左侧而个人1022在右侧,如图\n10d所描绘的,则显示区域1005和1006相应地交换,显示区域1005移向右手侧而显示区域\n1006移向左手侧。\n[0130] 一般而言,可以自动提供从单个显示区域到两个或更多显示区域的转换,以及反向的转换。注意,涉及两个以上显示区域的转换也是可能的。例如,当具有其自己的显示区域的两个玩家因第三个玩家而相连时,从两个显示区域到三个显示区域的转换是可能的。\n每一显示区域可以与物理空间中玩家的位置相对应地定位。此外,可能垂直地堆叠显示区域,一个显示区域在另一个上。例如,一个玩家可能因站在视野中较高的表面上而比另一玩家高,使得用于较高玩家的显示区域在用于较低玩家的显示区域上方提供。\n[0131] 应小心避免显示区域数量太过频繁的变化,或太过频繁地交换显示区域。在一次变化之后,可设置最小时间来允许另一变化。在某些情况下,参与的个人可以被另一参与的个人或旁观者临时阻挡,且因此不能被跟踪。在此类情况下出于连续性考虑,显示区域应尽可能自然地继续响应。\n[0132] 图9d描绘了用于如图5的步骤506所述地在参与应用期间监视个人的示例方法,其中应用的输出基于对不参与应用的另一个人的跟踪来修改。除了跟踪个人来确定他们是否打算参与应用之外,还可能确定视野中的其他人的意图并向应用提供对应的输入。例如,一个或多个人可以在视野中作为旁观者来观看另一个人参与应用,如为他或她加油。步骤\n930包括跟踪视野中当前未参与应用,例如未控制显示器上的虚拟空间中的化身的其他人。\n判定步骤932确定该其他人是否具有对应用增加的兴趣。这可以使用包括结合图7a讨论的各种因素来确定。此外,也可检测与感兴趣的旁观者会执行的动作有关的其他因素。例如,可检测一个或多个人在参与的人的后面或侧面某一距离处。该一个或多个人可执行诸如站起来或将其手臂举过头来欢呼,或发出响亮的欢呼声等动作。\n[0133] 如果判定步骤932为假,则步骤930的跟踪继续。如果判定步骤932为真,则步骤\n934修改应用的视觉和/或听觉输出。例如,在其中个人的化身正在奔跑或驾驶的应用中,对观众为个人加油的适当响应可以是向化身提供增强的能力,如突然加速或播放更响、更快步调的背景音乐来增强娱乐体验。\n[0134] 一个示例场景包括跟踪运动捕捉系统的视野中的第一个人(已经参与了应用)的移动,包括区分视野中的第一个人的身体,其中该第一个人通过移动第一个人的身体来控制显示器上的虚拟空间中的化身来与应用交互。在跟踪第一个人的移动时,步骤930涉及跟踪视野中未参与应用且未控制显示器上的虚拟空间中的化身的至少一个其他人。当在判定步骤932,对该至少一个其他人的跟踪指示满足关于该至少一个其他人的行为的预定义准则时,在步骤934,修改应用的视觉和/或听觉输出。该预定义准则可以包括该至少一个其他人以指示对应用的增加级别的兴趣的方式移动(例如,站起来,举起手臂),或发出指示对应用程序的增加的兴趣的声音(例如,欢呼,拍手)。\n[0135] 图9e描绘了用于如图5的步骤506所述地在参与应用期间监视个人的示例方法,其中一个人在参与应用时取代另一个人。在步骤940,第一个人使用简档和化身来参与应用。在步骤942,第二个人具有参与意图且第一个人具有脱离意图。在步骤944,第二个人使用与第一个人使用的相同的简档和化身来参与应用。在这一情况下,对虚拟空间中处于同一状态的化身的控制由第二个人接管。例如,在游戏应用中,第一个人所达到的相同的分数或进展级别被移交给第二个人以维持连续性。这与为第二个人使用不同的化身和简档形成对比。还可能为第二个人提供新的化身,同时维持诸如分数或进展级别等其他简档数据的连续性。另一可能性是维持新化身的连续性但使用不同的简档数据。例如,第二个人能以重置的分数开始新游戏,但使用与第一个人相同的化身。\n[0136] 例如,参考图10e,个人1024正在通过控制显示器1040上的化身1042来参与应用(例如,个人1024举起左臂,且化身1042举起对应的手臂)。作为一个示例,化身具有不与个人1024的特定形状对应的通用外观。第二个人1022朝向视野的背面站立,指示不参与的意图。在图10f中,第一个人1024向后移动,指示脱离意图,且第二个人向前移动,指示参与意图,使得第二个人的移动现在用于控制显示器1050中的化身1042(例如,个人1022举起右臂,且化身1042举起对应的手臂)。\n[0137] 在该示例中,一次只有一个参与的玩家,且发生玩家取代。在另一示例中,一次有多个参与的玩家,且对一个或多个玩家发生玩家取代。\n[0138] 应用本身也可以是确定个人参与意图的因素。例如,在单玩家应用中,新化身不能与现有化身相连。为使第二个人能取代第一个人,可能需要第二个人的可能更强、可能性更大的参与意图,以及第一个人的更强的脱离意图。在某些情况下,第二个人可具有强参与意图,但只要第一个人没有脱离意图就忽略该参与意图。\n[0139] 图10a描绘了一个人参与应用,且其他人不参与应用的示例。如先前所讨论的,视野中的人不一定打算参与应用。此外,视野外的人可能打算参与应用。然而,该意图在个人在视野中之前可能无法从个人的图像数据中确定。在这一情况下,可能使用音频数据来确定意图。\n[0140] 显示器1000提供了其中化身1025站在路1008上的虚拟世界的示例。化身1025具有对应于个人1024的形状的形状。提供了具有代表性透镜1012的深度相机系统1010,以及在虚线1019和1020之间的对应的视野1021。一个人1022在视野外,且因此无法由深度相机系统1010在视觉上检测到。另一个人1028坐在椅子1030中。另一个人1024面向深度相机系统站着。另一个人1026走过视野。基于先前讨论的各种考虑事项,个人1022基于他或她的位置在视野外可能不被认为具有参与应用的意图,且可能甚至不被识别为存在。个人1028类似地基于他或她的位置(朝向视野1021的背面和侧面)以及姿态(坐着的姿态),且身体轮廓面向深度相机系统,可能不被认为具有参与应用的意图。\n[0141] 个人1024基于他或她的位置(在视野1021的中央)以及姿态(面向深度相机系统且肩膀摆好姿势)和移动(将一条手臂向外侧举起)可能被认为具有参与应用的意图。\n当个人1024参与时,化身1025的移动可由应用与个人1024的移动相对应地设置。\n[0142] 个人1026基于他或她的位置(朝向视野1021的一侧)、姿态(身体没有面向深度相机系统)以及移动(个人移过视野且朝向视野的边界1020移动)可能不被认为具有参与应用的意图。\n[0143] 注意,深度相机系统和/或相关联的计算环境可以重复地,例如每秒多次,确定一个或多个个人的意图,从而可快速地检测适当的变化且相应地调整应用。可使用过滤和平均来平滑结果,例如避免太过频繁的变化。\n[0144] 图10b描绘了两个人参与应用,且具有显示器上的虚拟空间的共同视点的示例。\n在显示器1002中,来自图10a的个人1024与先前在视野外的个人1022相连。基于先前讨论的各种因素,个人1022被确定为具有参与应用的意图。结果,在显示器1002上靠着个人\n1024的化身1025提供对应的化身1023。在这一情况下,显示器向个人1022和1024提供虚拟空间的公共视点,如先前结合图8b的步骤814所讨论的。\n[0145] 图10c描绘了两个人参与应用,且具有显示器上的虚拟空间的不同视点的示例拆分屏幕显示。如先前结合图8b的步骤816所讨论的,在显示器1004中,为化身1023和1025提供单独的显示区域1005和1006,且在每一显示区域中从不同的视点或相机角度来查看虚拟空间。例如,显示区域1006的视点大约与图10b中的相同。然而,显示区域1005的视点与图10b的显示区域1002有很大的不同。注意,化身1023和1025仍在同一虚拟空间中。\n例如,他们两个都站在路1008上。然而,显示区域1005的视点看向路的侧面,那里在山上有房子1007,而显示区域1006的视点继续向下看着路。\n[0146] 任选地,显示区域可在各自的显示区域中提供完全不同的虚拟空间或间隔的场景。显示区域甚至可提供不同应用的虚拟空间。\n[0147] 如所讨论的,显示区域1005和1006的相对位置可以对应于个人1022和1024的相对位置。另一选项是基于个人进入视野的方向来为个人提供显示区域。例如,个人1022可从左手侧进入视野,在这一情况下提供图10c的配置。\n[0148] 图10d描绘了相对于图10c的显示区域的示例拆分屏幕显示,其中当人们在物理空间中交换位置时交换显示区域。如先前结合图9c所讨论的,当个人1022从个人1024的左手侧移到右手侧时,相应地交换显示区域1005和1006。这使得人们甚至在他们在视野中移动时也容易地参与应用,因为他们在物理上更靠近他们正在交互的显示区域且与其对准。\n[0149] 图10a-f提供了在运动捕捉系统的视野中跟踪的人的身体的示例,其中跟踪包括区分视野中的个人的身体。\n[0150] 在此所述技术的上述详细描述是为了说明和描述而提供的。并非旨在穷举本技术或将其限于所公开的精确形式。鉴于上述教导,许多修改和变型都是可能的。选择上述实施例来最好地解释本技术的原理及其实践应用,从而使本领域其他人能够在各种实施例中并用各种适于所构想的特定用途的修改一起最好地利用本技术。本技术的范围旨在由所附权利要求书来定义。
法律信息
- 2015-06-17
专利权的转移
登记生效日: 2015.05.28
专利权人由微软公司变更为微软技术许可有限责任公司
地址由美国华盛顿州变更为美国华盛顿州
- 2014-05-14
- 2011-08-31
实质审查的生效
IPC(主分类): G06F 3/01
专利申请号: 201110024963.1
申请日: 2011.01.14
- 2011-07-20
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-12-10
|
2006-11-17
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |