著录项信息
专利名称 | 具有三维感知的视频通信 |
申请号 | CN201380033428.X | 申请日期 | 2013-07-24 |
法律状态 | 授权 | 申报国家 | 暂无 |
公开/公告日 | 2015-02-25 | 公开/公告号 | CN104380704A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04N5/222 | IPC分类号 | H;0;4;N;5;/;2;2;2;;;H;0;4;N;5;/;2;3;2;;;H;0;4;N;1;3;/;0;0;;;H;0;4;N;1;3;/;0;4查看分类表>
|
申请人 | 英特尔公司 | 申请人地址 | 美国加利福尼亚州
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 英特尔公司 | 当前权利人 | 英特尔公司 |
发明人 | Y.吴;W.孙;M.M.楚;E.德雷沙;P.穆斯;L.B.艾恩斯沃思;G.舍马克;I.V.科津特塞夫 |
代理机构 | 中国专利代理(香港)有限公司 | 代理人 | 姜冰;汤春龙 |
摘要
一般地,本公开通过基于标识、切分和跟踪图像的前景和背景层所生成的视差效应来提供用于具有三维感知图像呈现的实时视频通信的方法和系统。所述系统可包括:图像切分模块,配置成将当前本地视频帧分为本地前景层和本地背景层,并且基于本地前景层和本地背景层之间估计的边界来生成本地前景掩模,其中,当前本地视频帧包括本地颜色视频图像帧和本地图像深度数据帧;面部跟踪模块,配置成基于当前本地视频帧以及一个或多个先前本地视频帧来跟踪本地用户的面部的位置;背景层估计模块,配置成估计与从远程视频处理器接收的当前远程视频帧和远程前景掩模关联的远程背景层;以及图像呈现模块,配置成基于所估计的远程背景层、从远程视频处理器接收的当前远程视频帧和远程前景掩模、以及本地用户的面部的所跟踪的位置来呈现3D感知图像。
具有三维感知的视频通信\n技术领域\n[0001] 本公开涉及实时视频通信,并且更具体地涉及具有三维感知的实时视频通信。\n背景技术\n[0002] 例如各自在计算机上的本地用户和远程用户之间的视频通信变得日益常见和可用。这归因于内置视频摄像机和麦克风的个人计算机的流行以及高速互联网连通性的日益可用性。但是,由于通常与三维(3D)成像关联的所增加的硬件复杂性,大多数视频通信限于提供二维(2D)屏幕图像。这些复杂性可包括使用双摄像机、具有同步和校准的昂贵显示技术和难度。\n[0003] 但是,3D视频通信是值得期望的。深度感知向用户提供视觉提示,并且这些提示可增强与通信体验关联的空间和现实的感觉。如果能够以减少的成本并且无需对诸如第二摄像机或复杂显示器之类的附加硬件的要求来提供深度感知,则可由此增加用户体验的质量和满意。\n附图说明\n[0004] 随着下面的详细描述继续并且在参考附图时,所要求保护的主题的实施例的特征和优点将变得明显,在附图中,相似的标号描绘相似的部分,并且其中:\n[0005] 图1示出与本公开一致的视频通信系统的一个示范性实施例的顶级系统图;\n[0006] 图2示出与本公开一致的视频通信系统的一个示范性实施例的框图;\n[0007] 图3示出与本公开一致的示范性实施例的前景切分(segmentation)模块的附加框图细节;\n[0008] 图4示出与本公开的示范性实施例一致的前景掩模(mask)和边界轮廓;\n[0009] 图5示出与本公开一致的示范性实施例的背景估计模块的附加框图细节;\n[0010] 图6示出与本公开一致的示范性实施例的操作的流程图。\n[0011] 虽然下面的详细描述将通过对说明性实施例进行参考来继续,但是本领域技术人员将明白其许多的备选、修改和变形。\n具体实施方式\n[0012] 一般地,本公开提供用于具有三维(3D)感知图像的实时视频通信的方法和系统,该三维感知图像通过基于标识、切分和跟踪图像的前景和背景层所生成的视差效应来呈现。本地视频图像帧可在本地系统或平台中从本地摄像机获得,并且被切分为前景层和背景层。与层边界有关的信息可连同本地视频图像被传送到远程系统。远程系统可类似将远程视频图像和关联的层边界信息提供给本地系统。可检测并且在多个视频帧上跟踪本地用户的面部的位置。本地系统可生成具有3D感知的图像,该具有3D感知的图像要通过其中远程前景和远程背景层相对于彼此移动的运动视差的引入在本地显示器上显示给本地用户。\n通过跟踪本地用户的面部位置来控制相对运动。背景运动可相对于前景运动处于降低的速率,从而能够使用每个平台上的单个摄像机来实现实时视频流传送中的3D感知。\n[0013] 图1示出与本公开一致的一个示范性实施例的顶级系统图100。该系统可在本地用户120和远程用户122之间提供具有3D感知的流传送视频通信。本地视频摄像机102获得一个或多个图像帧,所述一个或多个图像帧可包括在背景场景或环境118前面的本地用户\n120。本地视频摄像机102可关联于或集成到本地计算机系统或平台,诸如,例如,膝上型计算机或计算机监视器、或者它可以是独立的摄像机。在一些实施例中,本地视频摄像机102可获得颜色视频图像和深度图像这两者,如下面将更详细地解释的。本地视频帧可被提供给本地3D感知处理模块104,其可将图像切分为本地前景和背景层,从而创建本地前景掩模以及跟踪本地用户的面部的位置,如下面将更详细地解释的。本地前景掩模和本地视频颜色帧可随后在网络106上被传送到与远程用户122的远程计算机系统或平台关联的远程3D感知处理模块110。远程3D感知处理模块110可为远程用户122提供本地3D感知处理模块为本地用户120提供的相同或类似的功能性。\n[0014] 本地3D感知处理模块104可在网络106上接收可连同本地用户的面部的所跟踪位置使用的远程前景掩模和远程视频颜色帧,以在本地显示器108上呈现具有3D感知的远程用户和远程背景的图像。3D感知可基于视差运动,该视差运动响应于本地用户的面部的位置在所显示的前景(例如,远程用户)和所显示的远程背景环境之间生成。例如,当本地用户的面部移向本地用户的左方时,远程用户将在本地观看显示器上相对于远程背景显现为右移。\n[0015] 在下面的讨论中,关注将集中在来自本地用户视角的视频通信上。但是,将领会到,这样做是为了便于解释,并且所公开的原理和所描述的示范性实施例可等同地服务于相对于远程用户的通信。因此,可实现具有3D感知的双向流传送视频通信。另外,在以下描述中,本地和远程系统可在功能性上被视为互相镜像以作为优先实施例。但是,将领会到,在备选实施例中,可基于对于具体应用或实现的适合性和便利来在本地和远程平台之间重新分布所描述的处理块的任何一个或所有。\n[0016] 在一些实施例中,例如可在本地和远程显示器的任一个或两个上以并排布局来显示本地图像和远程图像这两者。在这样的情况中,将领会到,可针对任何或所有这样的图像来应用本文公开的3D感知呈现技术。\n[0017] 图2示出与本公开一致的视频通信系统的一个示范性实施例的框图200。本地3D感知处理模块104被示出包括图像切分模块202、面部跟踪模块204、背景估计模块208和图像呈现模块206。图像切分模块202可将来自由本地摄像机102提供的本地视频流的图像切分为本地前景层和本地背景层。可基于前景和背景层之间的所估计的边界来生成本地前景掩模,如下面将更详细的描述的。网络传送模块210可在网络106上将本地前景掩模连同本地视频帧发送到远程系统。在下面所述的一些实施例中,本地视频帧可包括图像深度信息和颜色图像信息这两者,在该情况中,可不需要将图像深度信息分量发送到远程系统。\n[0018] 面部跟踪模块204可跟踪本地用户的面部的位置。面部的位置可从本地视频流的图像帧到图像帧在时间上被跟踪。面部跟踪模块能够确定例如在图像帧内用户何时从左移到右,或者反之亦然。\n[0019] 网络接收模块212在网络106上从远程系统接收远程视频颜色帧和远程前景掩模。\n远程视频颜色帧可包括例如远程用户的远程背景和远程前景两者。背景估计模块208接受远程视频颜色帧和远程前景掩模作为输入,并且提取远程背景层。背景估计模块208随后生成远程背景层的估计,所述远程背景层的估计包括当前从远程前景对象来看可能模糊的远程背景的区域,如下面将更详细地讨论的。\n[0020] 所估计的远程背景、远程视频颜色帧、远程前景掩模和本地所跟踪的面部位置都被提供给图像呈现模块206。图像呈现模块206基于远程前景掩模从远程视频颜色帧中提取远程前景图像,并且将所提取的远程前景在由本地跟踪的面部位置确定的偏移位置上合成到所估计的远程背景上。可随着本地用户移动从帧到帧而不同的偏移在所呈现的图像中生成基于视差的3D感知。对于背景图像的偏移位移 可被计算为 ,并且对于前景图像的偏移位移 可被计算为 ,其中, 表示包括与本地跟踪的面部位置关联的方向和距离的运动向量。比例因子 和 一般在0到1的范围中。Kf因子前面的负号指示前景偏移在本地用户运动的相反方向中。\n[0021] 图3示出与本公开一致的图像切分模块202的示范性实施例的附加框图细节300。\n图像切分模块202被示出包括粗略切分模块306和边界精制模块308。本地摄像机102被示出包括深度成像摄像机302和颜色成像摄像机304。深度成像摄像机302可与颜色成像摄像机\n304时间同步和空间对齐。粗略切分模块306从深度成像摄像机302获得深度图像数据,并且应用去噪过滤310、阈值化312和连接分量分析(connected component analysis,CCA)314以生成粗略本地前景掩模。在一些实现中,去噪过滤器310可以是中值过滤器或水平集(level-set)过滤器。阈值化模块312可基于深度数据的阈值化将图像切分为初始前景和背景层。可基于视频通信中的深度数据具有双模概率分布的假设来采用适应性阈值化。例如,可使用其中k=2的k-均值聚类(clustering)从每个深度图像的直方图来选择最佳阈值。连接分量分析模块314可过滤掉前景掩模中相对较小的区域以生成具有改进连通性的前景掩模。\n[0022] 由粗略切分模块306生成的粗略本地前景掩模可在对象边界包括不精确度。为此原因,由颜色成像摄像机304提供的颜色图像和粗略前景掩模被提供给边界精制模块308,边界精制模块308执行层绑定(banding)316、图裁剪处理318、并且应用平滑过滤器320以生成精制的本地前景掩模。如图4中所示,层绑定模块316在粗略切分的前景层的轮廓402上操作。沿着轮廓402的内部的N个像素宽度的第一带408被标识为“大致前景”。沿着轮廓402的外部的同样N个像素宽度的第二带406被标识为“大致背景”。前景区内部的所有剩余像素\n410被标识为“前景”,并且前景区外部的所有剩余像素404被标识为“背景”。所有像素及其带标识以及来自颜色图像的关联颜色值被传递到图裁剪模块318以生成具有增加精确度的前景边界。可以是高斯过滤器的平滑过滤器模块320平滑前景边界以生成精制的本地前景掩模。\n[0023] 图5示出与本公开一致的背景估计模块208的示范性实施例的附加框图细节500。\n背景估计模块208被示出包括背景初始化模块502、全局背景图像和像素历史存储器模块\n504和背景更新模块506。背景估计模块208为两个目的来跟踪远程用户的环境的全局背景图像。首先,所呈现的3D感知视图通常会将远程场景的视图从不同于远程物理摄像机实际角度的角度呈现给本地用户,并且因此需要综合或估计来自远程摄像机由前景中的远程用户挡住的远程背景的部分。但是,前景人物一般不是静态的,并且不将持续挡住背景的相同部分,因此跟踪背景允许随时间聚合未挡住的区域以创建全局背景图像。第二个目的由以下事实引起:远程背景环境一般也不是静态的。场景可改变,人们可经过和/或照明环境可变化。背景跟踪允许对这些改变的适应。\n[0024] 背景初始化模块502使用来自第一视频帧的所提取的远程背景层的像素来初始化全局背景图像。背景更新模块506通过结合来自新接收的视频帧的所提取的远程背景层的新背景像素以及为该目的在存储器模块504中维护更新的背景图像和像素历史来更新全局背景图像。\n[0025] 在初始化期间,使用远程用户的第一视频帧中的所有可见背景像素 来初始化全局背景图像中对应的背景像素,即 。全局背景图像中的剩余背景像素由远程前景挡住,并且保持未初始化。\n[0026] 在背景更新506期间,第i个视频帧中的每个可见背景像素 与其对应的全局背景图像像素 一起被检查。如果 先前已经被挡住并且未被初始化,\n则其被更新为 。如果 已经被初始化,则其被更新为\n[0027] ,\n[0028] 其中, 由 和 的像素历史之间的相似度的测量来确\n定。例如,每个全局背景图像像素的N个最新的颜色值可被记录为像素的历史,并且 可由 和三维红-绿-蓝(R,G,B)颜色空间\n中的 的平均值之间的归一化距离来确定。例如,\n[0029] ,\n[0030] 其中, 可以是任何距离度量,诸如例如L1或L2距离度量。\n[0031] 如果 已经被初始化,但是第i个视频帧中其对应的像素是前景像素,则它可被更新为 。但是,由于背景照明改变和/或摄像机自动白平衡调\n节,背景像素的强度可从一个帧到下一个帧显著地改变。假设该强度改变能够由线性函数来模型化, 可被更新为\n[0032] ,\n[0033] 其中,a和b可通过求解以下线性方程来计算:\n[0034] ,\n[0035] 其中, 和 分别是当前和前一个远程视频帧的背景区域的平均强度。\n[0036] 图6示出与本公开一致的示范性实施例的操作的流程图600。在操作610,将当前本地视频帧切分为本地前景层和本地背景层。在操作620,基于本地前景层和本地背景层之间所估计的边界来生成本地前景掩模。在操作630,将当前本地视频帧和本地前景掩模传送到远程视频处理器,该远程视频处理器配置成基于当前本地视频帧和本地前景掩模来呈现3D感知图像。在操作640,从远程视频处理器接收当前远程视频帧和远程前景掩模。在操作\n650,基于当前本地视频帧以及一个或多个先前本地视频帧来跟踪本地用户的面部的位置。\n在操作660,基于当前远程视频帧和远程前景掩模来估计远程背景层。在操作670,基于所估计的远程背景层、远程前景掩模、当前远程视频帧和本地用户的面部的所跟踪的位置来呈现3D感知图像。\n[0037] 在一些实施例中,在本地和远程平台的任何一个或两者,双摄像机可以是可用的。\n当双摄像机可用时,附加深度信息可从这两个摄像机之间的像素差异来获得。该附加深度信息可补充或替换从先前所述的深度成像摄像机所获得的深度信息。\n[0038] 本文所述的方法的实施例可在包括一个或多个存储媒体的系统中实现,所述一个或多个存储媒体具有个别或组合地存储于其上的指令,所述指令当由一个或多个处理器运行时执行所述方法。这里,处理器可包括,例如,系统CPU(例如,核处理器)和/或可编程电路。因此,意图的是,根据本文所述方法的操作可被分布在多个物理设备上,诸如若干不同的物理位置处的处理结构。同样,意图的是,可个别或子组合地执行方法操作,如本领域的技术人员将理解的。因此,并非每个流程图的所有操作需要被执行,并且本公开明确意图的是,能够实现这样的操作的所有子组合,如本领域的普通技术人员将理解的。\n[0039] 存储媒体可包括任何类型的有形媒体,例如,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)、数字通用盘(DVD)和磁-光盘的任何类型的盘,诸如只读存储器(ROM)、诸如动态和静态RAM的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器、磁或光卡之类的半导体设备,或者适合存储电子指令的任何类型的媒体。\n[0040] 如本文任何实施例中使用的“电路”可包括,例如,单个或任何组合的硬连线电路、可编程电路、状态机电路和/或存储由可编程电路运行的指令的固件。应用可作为可在诸如主机处理器或其它可编程电路之类的可编程电路上运行的代码或指令而被实施。如本文任何实施例中使用的模块可作为电路被实施。电路可作为诸如集成电路芯片之类的集成电路被实施。\n[0041] 因此,本公开通过基于标识、切分和跟踪图像的前景和背景层所生成的视差效应来提供用于具有三维感知图像呈现的实时视频通信的方法和系统。\n[0042] 所述方法可包括将当前本地视频帧切分为本地前景层和本地背景层。该示例的方法还可包括基于本地前景层和本地背景层之间估计的边界来生成本地前景掩模。该示例的方法还可包括将当前本地视频帧和本地前景掩模传送到远程视频处理器,所述远程视频处理器配置成基于当前本地视频帧和本地前景掩模来呈现3D感知图像。该示例的方法还可包括从远程视频处理器接收当前远程视频帧和远程前景掩模。该示例的方法还可包括跟踪本地用户的面部的位置,所述跟踪基于当前本地视频帧以及一个或多个先前本地视频帧。该示例的方法还可包括基于当前远程视频帧和远程前景掩模来估计远程背景层。该示例的方法还可包括基于所估计的远程背景层、远程前景掩模、当前远程视频帧和本地用户的面部的所跟踪的位置来呈现3D感知图像。\n[0043] 另一个示例方法包括前述的操作,并且当前本地视频帧包括本地颜色视频图像帧和本地图像深度数据帧,并且以及,传送当前本地视频帧包括传送本地颜色视频图像帧。\n[0044] 另一个示例方法包括前述的操作,并且生成本地前景掩模还包括基于本地图像深度数据帧来生成粗略前景掩模,并且还包括基于粗略前景掩模和本地颜色视频图像帧来生成精制的前景掩模。\n[0045] 另一个示例方法包括前述的操作,并且生成粗略前景掩模还包括去噪过滤、阈值化和连接分量分析。\n[0046] 另一个示例方法包括前述的操作,并且生成精制的前景掩模还包括层绑定、图裁剪处理和平滑过滤。\n[0047] 另一个示例方法包括前述的操作,并且所述呈现还包括基于远程前景掩模从当前远程视频帧提取远程前景层,并且合成所提取的远程前景层和所估计的远程背景层,并且所提取的远程前景层被定位在相对于所估计的远程背景层的偏移,该相对的偏移基于本地用户的面部的所跟踪的位置。\n[0048] 另一个示例方法包括前述的操作,并且所估计的远程背景层被定位在第一偏移,,并且所提取的远程前景层被定位在第二偏移, ,并且 是包括与本\n地用户的面部位置的所跟踪的位置关联的方向和距离的运动向量, 是0到1的范围中的比例因子,并且 是0到1的范围中的比例因子。\n[0049] 另一个示例方法包括前述的操作,并且 ,并且选择 和 以在所呈现的3D感知图像中生成视差。\n[0050] 根据另一个方面提供一种系统。该系统可包括图像切分模块,其配置成将当前本地视频帧切分为本地前景层和本地背景层,并且基于本地前景层和本地背景层之间估计的边界来生成本地前景掩模,并且当前本地视频帧包括本地颜色视频图像帧和本地图像深度数据帧。该示例的系统还可包括面部跟踪模块,其配置成基于当前本地视频帧以及一个或多个先前本地视频帧来跟踪本地用户的面部的位置。该示例的系统还可包括背景层估计模块,其配置成估计与从远程视频处理器接收的当前远程视频帧和远程前景掩模关联的远程背景层。该示例的系统还可包括图像呈现模块,其配置成基于所估计的远程背景层、从远程视频处理器接收的当前远程视频帧和远程前景掩模、以及本地用户的面部的所跟踪的位置来呈现3D感知图像。\n[0051] 另一个示例系统包括前述组件,并且图像切分模块还包括配置成基于本地图像深度数据帧来生成粗略前景掩模的粗略切分模块,并且还包括配置成基于粗略前景掩模和本地颜色视频图像帧来生成精制的前景掩模的边界精制模块。\n[0052] 另一个示例系统包括前述组件,并且粗略切分模块还包括去噪过滤模块、耦合到去噪过滤模块的阈值化模块以及耦合到阈值化模块的连接分量分析模块。\n[0053] 另一个示例系统包括前述组件,并且边界精制模块还包括层绑定模块、耦合到层绑定模块的图裁剪处理模块、以及耦合到图裁剪处理模块的平滑过滤。\n[0054] 另一个示例系统包括前述组件,并且呈现模块还配置成基于远程前景掩模从当前远程视频帧来提取远程前景层,并且合成所提取的远程前景层和所估计的远程背景层,并且所提取的远程前景层被定位在相对于所估计的远程背景层的偏移,该相对的偏移基于本地用户的面部的所跟踪的位置。\n[0055] 另一个示例系统包括前述组件,并且呈现模块还配置成使所估计的远程背景层定位在第一偏移, ,并且使所提取的远程前景层定位在第二偏移, ,并\n且 是包括与跟踪的本地用户的面部位置关联的方向和距离的运动向量, 是0到1的范围中的比例因子,并且 是0到1的范围中的比例因子。\n[0056] 另一个示例系统包括前述组件,并且 ,并且选择 和 以在所呈现的3D感知图像中生成视差。\n[0057] 根据另一个方面,提供至少一个计算机可读存储媒体,其具有存储于其上的指令,所述指令当由处理器运行时,使所述处理器执行如上面的示例中所描述的方法的步骤。\n[0058] 本文已经采用的术语和表达用作描述性的而非限制性的术语,并且并不意图在这样的术语和表达的使用中排除所示和所描述的特征(或其部分)的任何等同,并且认识到,各种修改在权利要求的范围内是可能的。因此,权利要求意图涵盖所有这样的等同。本文已经描述了各种特征、方面和实施例。如本领域的技术人员将理解的,所述特征、方面和实施例易于互相组合以及变形和修改。因此,本公开应被认为包含这样的组合、变形和修改。
法律信息
- 2017-11-17
- 2015-03-25
实质审查的生效
IPC(主分类): H04N 5/222
专利申请号: 201380033428.X
申请日: 2013.07.24
- 2015-02-25
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2011-08-24
|
2010-07-23
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |