移动通信中的视频通话

发明专利有效专利

申请号：
CN200710006275.6
IPC分类号：H04N7/14;H04N1/387
申请日期：
2007-02-07
申请人：
LG电子株式会社

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	移动通信中的视频通话
申请号	CN200710006275.6	申请日期	2007-02-07
法律状态	暂无	申报国家	中国
公开/公告日	2007-08-15	公开/公告号	CN101018314
优先权	暂无	优先权号	暂无
主分类号	H04N7/14 ? IPC结构图谱： H 电学 H9 电学 H04 电通信技术 H04N 图像通信，如电视 H04N7/00 电视系统（部件入H04N 3/00，H04N 5/00；用于数字视频信号编码，解码，压缩或解压缩的方法或装置；可选的内容分发入H04N 21/00） H04N7/14 双向工作系统〔5〕	IPC分类号	H;0;4;N;7;/;1;4;;;H;0;4;N;1;/;3;8;7查看分类表>
申请人	LG电子株式会社	申请人地址	英国伦敦变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	英国电讯有限公司	当前权利人	英国电讯有限公司
发明人	金泰星
代理机构	中原信达知识产权代理有限责任公司	代理人	钟强;谷惠敏

摘要

在视频通话期间或视频会议期间，可以根据用户实时的移动将装饰图像附加到用户的面部图像上，以便在视频通话期间可以向呼叫接收者显示在审美方面更有吸引的实时视频图像。

1.一种移动通信终端，包括：
捕获单元，用于得到捕获图像；
合成单元，该合成单元基于所述捕获图像的特征，把所述捕获图像与装饰图像进行合成以产生合成图像，其中所述合成单元包括：
描绘单元，该描绘单元从所述捕获图像中提取面部的特征，并基于所提取的特征来描绘所述捕获图像的基准线，该基准线指示所述面部的几何形状；
同步单元，该同步单元基于描绘的所述基准线，使所述面部与用于面部的所述装饰图像同步；
发送/接收单元，用于输入/输出所述合成图像；
控制器，用于控制所述移动通信终端的其他各单元的操作，
其中所述移动通信终端还被配置成使得在得到另一移动通信终端的用户的授权时，通过使用呼叫控制协议和/或数据控制协议的远程接入来控制所述另一移动通信终端执行图像装饰。
2.根据权利要求1的移动通信终端，进一步包括存储器，该存储器存储所述装饰图像。
3.根据权利要求1的移动通信终端，其中基于亮度、色彩和所述面部的部位来提取所述特征。
4.根据权利要求1的移动通信终端，其中所述同步单元基于与所述描绘单元所描绘的所述基准线有关的角度、倾斜度、移动和旋转方向中的至少一个信息，使所述捕获图像的基准线与所述装饰图像的基准线同步，从而将所述捕获图像和装饰图像组合为所述合成图像。
5.根据权利要求1的移动通信终端，其中所述几何形状指示在眼睛、鼻子和嘴巴中的形状。
6.根据权利要求1的移动通信终端，其中所述基准线具有T形，该T形是通过连接眼睛、鼻子和嘴巴来获得的。
7.根据权利要求1的移动通信终端，其中所述装饰图像具有预先应用的具有T形的基准线，该T形是通过连接眼睛、鼻子和嘴巴来获得的。
8.一种在移动通信终端中的视频通话方法，该方法包括：
i.获取捕获图像；
ii.使用所述捕获图像的特征，把所述捕获图像与装饰图像合成，从而产生合成图像，其中把所述捕获图像与装饰图像合成包括：
从所述捕获图像中提取面部的特征，并基于提取的所述特征来描绘指示所述面部的几何形状的基准线；
基于描绘的所述基准线，使所述面部与用于面部的所述装饰图像同步；
iii.输入/输出所述合成图像，
其中，在得到另一移动通信终端的用户的授权时，由该移动通信终端向所述另一移动通信终端发送所述捕获图像，并通过使用呼叫控制协议和/或数据控制协议的远程接入来来控制所述另一移动通信终端执行图像装饰。
9.根据权利要求8的方法，其中基于亮度、色彩和所述面部的部位来提取所述特征。
10.根据权利要求8的方法，其中描绘步骤包括：
即使移动通信终端的用户在移动，也实时地提取面部的特征。
11.根据权利要求8的方法，其中同步步骤包括：
基于与通过描绘步骤描绘的所述基准线有关的角度、倾斜度、移动和旋转方向的信息，使描绘的所述基准线与所述装饰图像的基准线同步。
12.根据权利要求8的方法，其中所述几何形状指示眼睛、鼻子和嘴巴之间的形状。
13.根据权利要求8的方法，其中所述基准线具有T形，该T形是通过连接眼睛、鼻子和嘴巴来获得。
14.一种在至少两个用户之间执行视频通话的方法，该方法包括步骤：
a.捕获所述两个用户之一的面部图像；
b.从所捕获的所述面部图像中检测某些面部特征；
c.利用所述某些面部特征使所述面部图像与装饰图像同步，使得所述装饰图像匹配和跟踪所述面部图像中的任何移动；
d.在根据所述的同步以图形方式将所述装饰图像附加到所述面部图像上时形成组合图像；
e.将所述组合图像发送到两个用户中的另一用户，以执行视频通话，
其中由两个用户中的一个用户的移动终端在得到两个用户中的所述另一用户的授权时，通过使用呼叫控制协议和/或数据控制协议的远程接入来为该另一用户的移动终端启动上述步骤b至e。
15.根据权利要求14的方法，其中通过比较色彩、亮度和色调对比度中的至少一个来执行所述的检测，所述色彩、亮度和色调对比度指示所述面部图像的某些面部特征的位置。
16.根据权利要求15的方法，其中通过图形图像处理技术来执行所述的同步，该图形图像处理技术考虑了与在所述面部图像中检测的所述某些面部特征有关的移动、旋转、斜率和图像缩放比例中的至少一个。
17.根据权利要求16的方法，其中通过图形图像处理技术来执行所述的形成合成图像，所述图形图像处理技术采用图像色彩遮罩、图像色彩混合、对于所述装饰图像和面部图像的图像透明度控制中的至少一个。
18.根据权利要求17的方法，其中通过使用无线通信协议来执行发送。
19.根据权利要求18的方法，其中在视频通话期间实时地重复执行所述步骤b至e。

移动通信中的视频通话\n技术领域\n[0001] 本发明涉及在移动通信终端中的视频通话。\n背景技术\n[0002] 通常，使用移动通信终端(或某些其它设备，在下文将它们全部称为‘终端’)的视频通话是指在可以观看显示屏上彼此的面部或图像的呼叫方之间实施通话(或通信)。\n根据宽带码分多址(WCDMA)技术，用于处理视频的3G-324M协议(正如在例如3GPP TS \n26.111中定义的)被用来支持视频通话。在一般电话网络中，使用所谓的H.324标准来发送和/或接收语音(音频)、图像(视频)、数据等，该H.324标准被定义为适合于移动通信环境。\n[0003] 同样地，在使用H.324标准的视频通话中，如果呼叫(或被叫)方不希望显示出他自己的面部或图像，相关的技术允许更换(或替换)图像的使用。\n[0004] 图1显示了一种用于视频通话的示例性更换(或替换)图像。通过选择期望用于装饰或修饰(下文称为‘装饰图像’)的图像(或图形)，来实现使用更换(替换)图像的方法。例如，通过终端的摄像机捕获静止图像，将静止图像与选择的装饰图像进行结合形成重叠图像。这个重叠图像与捕获的图像一起进行存储。这样，该捕获的静止图像或重叠图像可以被设置为终端的空闲状态(内部或外部)屏幕图像、可以被发送、也可以被下载。并且，可以在视频通话期间使用捕获的静止图像或重叠图像。\n[0005] 图2显示了支持视频通话的典型系统的框图。通常，当使用3G-324M协议执行视频通话时，可能需要连续地发送图像(视频)信息和语音(音频)信息。这里，借助于音频编码器41和视频编码器42，分别对通过麦克风获得的语音信息和来自摄像机的图像信息来进行编码。编码的信息(例如，音频和视频信息)经3G-324M协议模块43和44进行发送和接收。从发送侧终端发送的信息(例如，音频和视频信息)分别由接收侧终端中的音频解码器45和视频解码器46进行解码，其中通过音频解码器45解码的语音通过扬声器进行输出，并在接收侧终端的显示单元上显示图像(视频)信息。\n[0006] 图3显示了在典型的发送侧和接收侧终端上分别显示的示例性屏幕。如图3中所示，在每个终端的显示单元上同时显示发送和接收的图像。也就是，在每个显示单元上同时显示展现呼叫接收者图像的接收屏幕和展现呼叫者图像的发送屏幕。\n[0007] 然而，通过在视频通话期间展示更换(或替换)的静止图像，或者通过展示用户外貌的静止图像而没有附加任何图形或图像重叠，则这种视频通话的方法仅仅允许用户隐瞒(或隐藏)他的真实外貌。也就是说，这种视频通话方法无法向用户(即，在视频通话期间)提供用于在用户的外表上实时附加图像(图形)的任何可选方式。\n发明内容\n[0008] 本发明人认识到这些缺陷，并基于这些认识设想在本公开文本中描述的特征和方式。\n[0009] 可以从图像(例如，静止或移动图像)中提取个人面部的某些特征，基于提取的特征设置(即，建立、描绘等)基准线，使图像的设置基准线与装饰图像(例如，静止图像)同步，从而向对方(第三方)的终端发送同步的图像。并且，也可以允许呼叫者控制在呼叫接收终端(即，对方终端)上(例如，建立，编辑等)的装饰图像。\n[0010] 本发明的一个方面是提供一种在能够实施视频通话的移动通信终端中执行视频通话的设备和方法，即使用户在视频通话期间移动他的头部(或身体的其他部分)，该移动通信终端仍能够通过实时提取用户面部的某些特征，然后基于提取的特征将装饰图像(或图形)附加到用户的(面部)图像上，来实施视频通话。并且，通过控制接收侧终端以允许在其上显示装饰图像，就可以在呼叫方与被叫方的呼叫连接期间执行呼叫方和被叫方的应用图像的视频通话。\n[0011] 根据本发明的有关方面，提供了一种移动通信终端，它包括：捕获单元，用于得到捕获图像；合成单元，该合成单元基于所述捕获图像的特征，把所述捕获图像与装饰图像进行合成以产生合成图像，其中所述合成单元包括：描绘单元，该描绘单元从所述捕获图像中提取面部的特征，并基于所提取的特征来描绘所述捕获图像的基准线，该基准线指示所述面部的几何形状；同步单元，该同步单元基于描绘的所述基准线，使所述面部与用于面部的所述装饰图像同步；发送/接收单元，用于输入/输出所述合成图像；控制器，用于控制所述移动通信终端的其他各单元的操作。其中所述移动通信终端还被配置成使得在得到另一移动通信终端的用户的授权时，通过使用呼叫控制协议和/或数据控制协议的远程接入来控制所述另一移动通信终端执行图像装饰。\n[0012] 根据本发明的另一方面，提供一种在移动通信终端中的视频通话方法，该方法包括：获取捕获图像；使用所述捕获图像的特征，把所述捕获图像与装饰图像合成，从而产生合成图像，其中把所述捕获图像与装饰图像合成包括：从所述捕获图像中提取面部的特征，并基于提取的所述特征来描绘指示所述面部的几何形状的基准线；基于描绘的所述基准线，使所述面部与用于面部的所述装饰图像同步；输入/输出所述合成图像。其中，在得到另一移动通信终端的用户的授权时，由该移动通信终端向所述另一移动通信终端发送所述捕获图像，并通过使用呼叫控制协议和/或数据控制协议的远程接入来来控制所述另一移动通信终端执行图像装饰。\n[0013] 根据本发明的又一方面，提供一种在至少两个用户之间执行视频通话的方法，该方法包括：捕获所述两个用户之一的面部图像；从所捕获的所述面部图像中检测某些面部特征；利用所述某些面部特征使所述面部图像与装饰图像同步，使得所述装饰图像匹配和跟踪所述面部图像中的任何移动；在根据所述的同步以图形方式将所述装饰图像附加到所述面部图像上时形成组合图像；将所述组合图像发送到两个用户中的另一用户，以执行视频通话。其中由两个用户中的一个用户的移动终端在得到两个用户中的另一用户的授权时，通过使用呼叫控制协议和/或数据控制协议的远程接入来为该另一用户的移动终端启动上述步骤b至e。\n附图说明\n[0014] 图1显示了在视频通话期间使用的更换图像的实例；\n[0015] 图2显示了支持视频通话的典型通信系统的框图；\n[0016] 图3显示了在典型的发送和接收侧终端上分别显示的示例性屏幕；\n[0017] 图4显示了根据本文公开的移动通信终端的视频通话设备的框图；\n[0018] 图5显示了根据一个实施例的如何提取用户面部特征的示例性视图；\n[0019] 图6显示了根据一个实施例的如何提取用户面部特征和描绘基准线的示例性视图；\n[0020] 图7是根据一个实施例的应用装饰图像的示例性视图；\n[0021] 图8显示了根据一个实施例在用户面部图像上应用装饰图像的同步方法的示例性视图；\n[0022] 图9是根据一个实施例的将装饰图像与用户面部图像结合的示例性视图；\n[0023] 图10显示了根据一个实施例的采用图像装饰的示例性装饰协议的框图；\n[0024] 图11显示了根据一个实施例用于发送被附加有装饰图像的图像的H.324M协议的示例性结构；\n[0025] 图12显示了根据一个实施例，当视频通话在进行中时发送/接收多媒体数据的多媒体应用层的框图；\n[0026] 图13显示了根据一个实施例，当视频通话在进行中时发送/接收多媒体数据的API结构的框图；\n[0027] 图14是根据一个实施例在视频通话协议中应用装饰图像的示例性视图；\n[0028] 图15显示了根据一个实施例在移动通信终端中视频通话方法的流程图；\n[0029] 图16显示了根据一个实施例用于控制对方终端的图像的方法流程图。\n具体实施方式\n[0030] 本文公开内容是为了提供一种在移动通信终端中视频通话的设备和方法。\n[0031] 可以向用户提供一种可供选择的选项，用于决定是否在他的真实图像(即，捕获的视频)上附加重叠图像(或图形、可视装饰等)，以便在视频通话期间展示给对方(或接收者)。这是在以前已知或使用的视频通话技术之上的改进，借此在视频通话期间，当用户不希望显示他的真实图像时，就只显示静止图像(诸如静止照片、图形图像、空闲模式屏幕、壁纸、动画等)。\n[0032] 提供附加这种重叠(或装饰)图像或图形的一个原因是可以隐藏或至少稍微覆盖呼叫者(或呼叫接收者)的真实外貌。可替换地，附加这种装饰图像也可以在视觉上更加吸引某些用户。\n[0033] 在视频通话期间，与简单提供静止图像相比，在用户的实时视频捕获图像上附加这种重叠(装饰)图像将更加富有美感。而且这样，在视频通话期间捕获的用户的实时移动可以与其上叠加的重叠(装饰)图像或图形一起显示，并受到图形处理以便跟随用户的移动，从而建立起好像用户实际上穿戴这种重叠(装饰)图像或图形的视觉效果。这将被称为应用装饰的视频通话，在下文中将对它的内容进行更详细的描述。\n[0034] 通过提取在视频通话期间捕获的用户面部的特殊特征、使用提取的特征描绘(或形成)一个或多个基准线、将重叠(或装饰)图像(图形)的基准线与描绘的基准线匹配、并将所要发送的装饰图像和呼叫用户面部进行组合起来，呼叫方和被叫方都可以执行应用图像的视频通话。并且，呼叫者可以被授权控制接收终端，以便可以在接收终端上执行图像装饰。\n[0035] 图4显示了根据本文公开的移动通信终端的视频通话设备的框图。终端可以包括获得语音输入的麦克风10、编码获得的语音输入的音频编码器12、捕获图像的捕获单元\n14、合成单元17和同步单元18，该合成单元17包括描绘单元16，该描绘单元16从捕获的图像中提取某些特征，并基于提取的特征描绘基准线，该同步单元18使捕获图像的描绘基准线与存储器中存储的装饰图像(下文称为‘装饰图像’)的基准线同步，以便建立组合的图像。并且，可以具有视频编码器22、控制器24、RF发射机26、和RF接收机28，该视频编码器22对同步的图像进行编码，该控制器24将通过音频编码器12输出的语音信号与从视频编码器22输出的图像进行同步，并控制各种部件的一系列操作，该RF发射机26通过天线发送已经过编码和彼此同步的图像和语音数据，该RF接收机28接收在视频通话进行期间从通信网络接收的图像和语音数据。并且，可以具有音频解码器34、输出单元36、视频解码器30和显示单元32，该音频解码器34在控制器24的控制下，对通过RF接收机28接收的语音文件进行解码，该输出单元36输出解码的语音，该视频解码器30在控制器24的控制下，对通过RF接收机28接收的图像文件进行解码，该显示单元32显示解码的图像。\n[0036] 图5显示了根据一个实施例的如何提取用户面部图像特征的示例性视图。根据一个实施例，在提取面部特征、然后基于提取的特征设置基准线的方法中，在视频通话期间从摄像机获取的图像中提取面部轮廓之后，基于色彩、亮度和/或其它信息在提取的面部轮廓的区域内确定候选部分(例如，眼睛、鼻子、嘴巴等)，然后基于有关确定的候选部分的几何信息来识别这些部分(例如，眼睛、鼻子、嘴巴等)。基于识别的部分，通过使用用户左眼和右眼的一条线和用户鼻子和嘴巴的另一条线来获得基准线(可以是类似字母T或其它垂直连接的线的形状)。\n[0037] 如果在候选部分内对用于设置基准线的部分(例如，眼睛、鼻子、嘴巴等)的搜索不成功，就扩大候选部分(例如，眼睛、鼻子、嘴巴等)执行进一步的图像处理，以便确保更宽的搜索区域。由于在视频通话期间实时地执行面部特征的提取和基准线的描绘，因此即使在视频通话进行期间用户发生移动，仍然可以适当地提取用户的面部特征，并可以基于提取的特征来相应地描绘基准线。\n[0038] 在下文中，将参考图4和图5来描述根据本文公开的移动通信终端的视频通话设备的一些示例性操作。\n[0039] 当用户使用他的装备有视频通话功能的终端实施视频通话时，通过在终端中装配的麦克风10和捕获单元14(即，摄像机)就能分别获得用户的语音和图像。音频编码器12对通过麦克风10获得的语音进行编码，以便在控制器24的控制下通过RF发射机26发送到其它终端。捕获单元14获得的图像被发送到描绘单元16。描绘单元16随后从捕获单元14接收的图像中提取面部轮廓，基于有关色彩、亮度和/或其它特性的信息来确定在提取的面部轮廓区域内的候选部分(例如，眼睛、鼻子、嘴巴等)。\n[0040] 在确定候选部分时，描绘部分16基于与所确定的候选部分有关的几何信息或因素，来识别与眼睛、鼻子、嘴巴等对应的部分。基于几何形状或信息，描绘单元16随后描绘(或绘制)‘T’形(或其它垂直线)的基准线，该‘T’形是通过将在用户图像的两个眼睛之间连接的(相对水平)直线与沿用户图像的鼻子和嘴巴的另一条(相对垂直)直线进行连接而获得的。此后，描绘单元16计算与描绘基准线的角度、倾斜度、移动和旋转方向有关的信息(由于在视频通话期间用户的移动)，然后将该信息发送到同步单元18。根据有关与从描绘单元16接收的用户面部对应的基准线的计算信息，同步单元18将由捕获单元14获得的图像与装饰图像(例如，静止或移动图像、图片、图形、动画等)进行同步，上述装饰图像被存储在存储器20中、以便被符合期望地应用于装饰用户的面部图像。\n[0041] 同样地，如果在视频通话的进行中用户发生移动，可以实时连续地检测、描绘和计算有关T-形基准线的角度、倾斜度、移动和旋转方向的信息。\n[0042] 在将用户面部的基准线与装饰图像的基准线进行匹配，从而建立组合图像(该组合图像是通过将从描绘单元16发送的图像与存储器20中存储的装饰图像进行合成而获得的)之后，同步单元18就将同步的图像发送到视频编码器22。视频编码器22在控制器24的控制下对合成的图像编码，然后将经过编码的图像发送到RF发射机26。RF发射机26随后通过天线向其它终端发送经过编码的图像。\n[0043] 与此相反，在视频通话的进行中，如果通过RF接收机28从第三方接收到包含第三方的面部图像和语音信息，就在控制器24的控制下，将接收的语音和图像分别发送到音频解码器34和视频解码器30。在视频解码器30对接收的图像解码，并在显示单元32上显示经过解码的图像时，音频解码器34对接收的语音解码，并通过诸如扬声器的输出单元36输出经过解码的语音。\n[0044] 图6显示了根据一个实施例的如何提取面部特征和描绘基准线的示例性视图。即使用户在视频通话期间移动时，仍可以通过使用图5中显示的方法来提取和描绘用户的面部特征。\n[0045] 图7是根据一个实施例的应用装饰图像的示例性视图。可以使用诸如半截面罩、耳环或眼镜等的多种外形作为装饰图像，这些装饰图像在呼叫连接期间(即，在视频通话期间)可以被用来装饰用户的面部。这里，将具有图5中描绘的‘T’形基准线与应用于每种上述图像的基准线相匹配，从而在视频通话期间将这些装饰图形(静止图像)应用于用户的面部上。\n[0046] 图8显示了根据一个实施例将装饰图像应用于用户面部图像的同步方法的示例性视图。通过使用图5中显示的方法，在视频通话期间在用户的面部图像上描绘基准线，以便计算与描绘的基准线相关的信息，这些信息是诸如角度、倾斜度、移动和旋转方向。使用计算的信息，在应用于装饰图像的基准线与在用户面部上描绘的基准线之间进行比较，从而使应用于装饰的装饰图像的基准线与在用户面部图像上描绘的基准线同步。\n[0047] 图9是根据一个实施例的将装饰图像与面部合成的示例性视图。如图9中所示，在基于与描绘基准线的角度、倾斜度、移动和旋转方向有关的信息，将装饰图像的基准线与用户面部上描绘的基准线进行匹配之后，合成这些基准线，以便依据同步的基准线获得采用装饰图像(例如，静止图像，图形等)装饰的(移动)图像。同样地，在视频通话期间实时地描绘与用户面部图像对应的基准线，并计算与基准线相关的信息，这些信息是诸如角度、倾斜度、移动和旋转方向。因此，通过将计算的信息应用于装饰图形(图像)，装饰图形(图像)就可以随着用户的移动一起进行移动。\n[0048] 图10显示了根据一个实施例用于执行采用图像(例如，静止图像或图形)装饰的装饰图像协议的框图。装饰图像协议可以包括输入/输出(I/O)单元集合(set)、处理单元集合、用于输入/输出数据的传输协议、适配单元集合和协议控制器，该输入/输出(I/O)单元集合具有视频I/O单元和音频I/O单元，用于输入/输出诸如图像和语音的数据，该处理单元集合具有视频处理单元、音频处理单元和数据处理单元，用于处理输入/输出的数据，该适配单元集合用于管理装饰协议的接口，该协议控制器用于管理在发送和接收单元之间的装饰协议。\n[0049] I/O单元集合的视频I/O单元以多种格式改变(转换)视频传输信息，这包括将通过摄像机输入的图像和/或存储器中存储的图像转换为适合于视频处理单元要求的形式，并将转换的信息发送到视频处理单元。视频I/O单元还接收从视频处理单元发送的视频数据，和/或在显示单元上输出处理信息或者存储处理信息。音频I/O单元以多种形式改变(转换)音频传输信息，这包括将从通过麦克风输入的语音中获得的信息、以及在终端中存储的文件转换为适合于音频处理单元要求的形式，并将转换的信息发送到音频处理单元。\n音频I/O单元还接收从音频处理单元发送的音频，和/或将处理信息输出到输出单元(例如，扬声器、接收机、耳机等)或者存储该处理信息。\n[0050] 当发送视频信息时，处理单元集合的视频处理单元处理从解码器输入的数据，并在接收视频信息时，处理发送给编码器的数据。视频处理单元可以包括一个模块，该模块处理替换(alternate)图像的传输、发送/接收图像的装饰、视频(移动图像)存储、屏幕捕获、面部识别、描绘(跟踪)等，该视频处理单元可以进一步包括用户视频处理模块。\n[0051] 当发送音频信息时，音频处理单元处理从解码器输入的数据，并在接收音频信息时处理发送给编码器的数据。视频处理单元可以包括一个模块，该模块处理替换语音的传输、发送/接收语音的编辑(例如，调制、合成和识别)、呼叫期间语音数据的存储等，该视频处理单元可以进一步包括用户音频处理模块。数据处理单元还管理在视频通话期间发送的数据信息，并准备在视频处理单元和音频处理单元中使用的资源。数据处理单元还可以被用作在视频通话期间数据传输的协议，这些数据传输是诸如图片、移动图像、音乐文件等的传输，数据处理单元还提供在存储器中存储许多数据的接口，以便读取和写入数据。\n[0052] 另外，通过向第三方终端的协议控制器发送和接收有关在视频通话期间图像装饰的操作的信息，协议控制器能控制装饰层的状态和视频、音频和数据处理单元的操作。\n[0053] 图11显示了根据一个实施例用于发送采用其它图像装饰的图像的H.324M协议的示例性结构。根据一个实施例，发送采用静止图像(例如，图形、移动图像、动画等)装饰的当前显示图像(例如，实时图像、移动图像、视频剪辑等)的H.324M协议可以包括视频编解码器(例如，H.263或MPEG 4)，该视频编解码器管理图像(视频)信息的发送/接收并处理该信息；还可以包括音频编解码器(例如，AMR(自适应多速率)或G.723.1)，该音频编解码器管理语音(音频)信息的发送/接收并处理该信息；还可以包括呼叫控制，该呼叫控制管理与视频通话协议的连接有关的功能和控制有关的功能；还可以包括数据协议，该数据协议提供在视频通话期间发送数据的功能。\n[0054] H.324M协议可以进一步包括H.223多路复用器，该多路复用器对从视频和音频编解码器输出的数据进行复用。CCSRL(控制信道分段和重新装配)是在ITU-T(国际电信联盟-电信标准化部分)推荐H.324附录C中定义的控制帧SAR(分段和重新装配)具体化方法，它支持H.245消息的稳定交换。用于封装CCSRL分段的NSRP命令的最大尺寸是2048八比特组。\n[0055] 图12显示了根据一个实施例，在视频通话期间发送/接收多媒体数据的多媒体应用层的框图。用户数据层使用音频编码器接收实况播送的语音信号数据，该语音信号数据是在视频通话期间通过麦克风实时地输入的；还接收在实施视频通话之前在终端中预先存储的语音记录；还接收由移动终端制造商(或服务提供商)分配的音乐或歌曲、或者经因特网由用户下载到其终端中的音乐或歌曲。\n[0056] 在视频通话期间，用户数据层使用视频编码器接收具有装饰图像(例如，静止图像、动画、图形等)的实时图像，还接收由终端制造商分配的视频(移动图像)或者由用户使用可携式摄像机功能在其终端中存储的视频(移动图像)，还接收由摄像机捕获的图像和动画剪辑。用户数据层使用H.245协议接收文本和控制信号，该控制信号被用于有条件地控制第三方的终端(例如，控制第三方终端的振动模式、控制第三方终端的键盘等)。\n[0057] 如图12中所示，通过使用H.223的AL2(适配层2)或AL3，从通过音频和视频编码器解码的数据中产生AL-PDU(协议数据单元)。可替换地，使用H.223的AL 1，从H.245信号中产生AL-PDU。通过H.223的多路复用层，使用每个AL-PDU来产生比特流；并通过调制解调器，在无线网络上发送数据。\n[0058] 通过使用具有上述构造(结构)的模块，在视频通话期间(即，视频会议)就可以实时地发送和接收附加有装饰图像(图形)的实时视频的音频数据和图像数据。\n[0059] 图13显示了根据一个实施例的在视频通话的进行中，用于发送/接收多媒体数据的API结构的框图。如图所示，API(应用程序接口)的结构是基于3G-324M软件，以便实现多媒体应用的视频聊天，该API的结构定义了与在视频通话期间输入的数据有关的API，数据是通过相关层的API进行发送/接收的。音频/视频数据使用音频/视频编解码器API，控制信号使用H.245 API。呼叫建立API被用于呼叫H.245和H.223的多路复用API。\n[0060] 图14是根据一个实施例的在视频通话协议中应用装饰图像的示例性视图。如图所示，在将发送侧摄像机所捕获的图像发送到与视频通话协议合作的视频解码器之前，可以将与用户面部图像对应的图像和装饰图像(例如，图像，图形，动画等)进行合成。也就是说，接收侧终端无需为了观看当前显示的具有装饰图像的实时图像，而执行一系列的附加操作。\n[0061] 图15显示了根据本文公开的在移动通信终端中视频通话的示例性方法的流程图。如果用户期望选择视频通话模式，并希望在视频通话期间使用装饰图像(例如，面具，耳环，眼镜等)装饰他的面部图像，用户就选择使用期望的装饰图像(或图形)(S100、S102和S104)。用户终端使用诸如摄像机的图像捕获单元，提取正在执行视频通话的用户的面部轮廓，然后基于在提取的面部轮廓区域内的色彩、亮度或其它信息，提取表示用户眼睛、鼻子和嘴巴的特征的实时信息(S106)。\n[0062] 在提取表示眼睛、鼻子和嘴巴的特征的信息时，使用提取的信息来描绘(跟踪)具有‘T’形的基准线，该‘T’形是通过将具有在两个眼睛之间连接的‘-’形的直线、与具有在直线‘-’的中心(即，鼻梁)与嘴巴的中心之间连接的‘|’形的另一条直线进行连接而获得。然后，计算有关提取的基准线的角度、倾斜度、移动和旋转方向的信息(S108)。同样地，当用户的面部发生移动时，就实时连续地执行‘T’形基准线的获取、和有关基准线的角度、倾斜度、移动和旋转方向的信息的计算。\n[0063] 在计算有关提取的基准线的信息之后，在步骤S104中用户选择的装饰图像被改变(调整)，以便使角度、倾斜度、移动和旋转方向与计算信息的角度、倾斜度、移动和旋转方向相匹配。当用户的面部图像与装饰图像相互匹配时，就将组合图像发送到接收侧终端(S112和S114)。\n[0064] 通过使用组合图像，当视频通话在进行中时，无论什么时候用户发生移动(即，当面部图像改变位置)，用户终端都提供对步骤S106的反馈，以便实时地重新计算表示用户面部图像特征的信息。\n[0065] 在步骤S116中，如果用户期望在视频通话期间应用其它的装饰图像，该过程就返回到选择使用的装饰图像的步骤S104(S116、S118和S104)。\n[0066] 因此，当用户移动，导致其面部的图像发生改变，和/或期望选择其它装饰图像时，就重复执行步骤S104至S118。当用户完成视频通话时，终端就可以退出视频通话模式。\n[0067] 图16显示了根据一个实施例用于控制第三方终端图像的方法的信号流程图。下文中，将详细提供根据一个实施例的发送侧终端(称为‘终端A’)如何控制接收侧终端(称为‘终端B’)的装饰的叙述。\n[0068] 如果终端B没有用于装饰的图像，或终端B的用户还没有设置图像装饰模式，那么终端A的用户可以控制终端B，从而建立当前显示的实时图像(视频)的装饰图像。首先，终端A将请求来自终端B的许可(授权或特许)，以便控制终端B的装饰图像操作(S200)。\n如果终端B授权终端A的许可，那么终端A可以向终端B发送图像ID，以便检验终端B是否具有终端A的用户期望用来装饰的图像(S202和S204)。接收到图像ID的终端B基于接收的ID，检验它是否已经存储了相应的图像。如果其中并没有存储相应的图像，终端B就请求终端A发送该图像(S206)。\n[0069] 在接收到来自终端B的图像发送请求时，终端A将图像发送到终端B。然后，使终端A与终端B同步(S208、S210和S212)。在完成在终端A与终端B之间的同步时，终端B就确认从终端A接收的图像ID，然后将确认的结果发送给终端A(S214)。在接收到来自终端B的结果之后，终端A的用户可以使用发送到终端B的图像，开始执行对终端B的装饰图像过程(S216)。如果终端A的用户期望使用其它的(不同的)图像执行装饰时，终端A就向终端B发送命令，用于请求将图像改变为与其它图像对应的ID。终端B随后检验从终端A接收的其它图像的ID，如果没有与ID对应的图像，终端B就请求从终端A发送相应的图像(S218和S220)。在接收到来自终端B的图像发送请求时，终端A向终端B发送相应的图像。此后，终端A可以被认为与终端B同步，以便形成装饰图像(S222、S224和S226)。在完成终端A与终端B之间的同步时，终端B就向终端A发送图像ID改变确认消息，该消息指示装饰图像已经被改变为由终端A发送的其它图像。已接收到图像ID改变确认消息的终端A可以允许用户连续执行图像装饰，并在完成时最后终止图像装饰过程(S228和S230)。\n[0070] 如前所述，图10中显示的协议可被用作通过控制另一终端来发送将被用于图像装饰的图像的协议，并且还可用作控制同步的协议。\n[0071] 另外，在发送侧终端和接收侧终端之间执行的一系列操作是一个实施例，每个终端能够执行由发送侧和接收侧终端实施的一系列操作。更进一步，本文描述的特征可以应用与在视频通话期间获得(捕获)的静止图像(诸如图片)和移动图像(诸如视频剪辑)。\n[0072] 如上所述，即使用户在视频通话期间移动他的头部，也可以使用本文公开的特征，利用附加的图形(例如，静止图像、动画等)来装饰用户面部图像。这可以通过在视频通话期间提取有关用户面部的眼睛、鼻子和嘴巴特征的信息、基于提取的信息跟踪(或建立)具有‘T’形的基准线、并使具有‘T’形的基准线与装饰图像的基准线同步来实现。\n[0073] 另外，如果在视频通话期间，接收侧终端没有装备图像装饰的功能，或者没有用于装饰的图像，或者接收侧终端的用户已经授权对图像装饰和图像控制的许可，那么发送侧终端的用户就可以向接收侧终端发送图像，并执行合适的控制操作，从而能够执行视频通话的图像装饰。\n[0074] 本文描述的特征可以采用多种类型的实时面部跟踪软件(和硬件)来实现。\n[0075] 通过基于各种因素(诸如，图像移动、旋转、斜率、图像缩放比例等)来计算转换矩阵，可以调整装饰图像，从而进行跟踪并与用户的面部移动同步。\n[0076] 为了将装饰图像与捕获的用户面部图像相组合(或重叠)，可以使用色彩遮罩(color masking)方法。如果装饰图像包含了图像透明度信息，或者如果图像处理应用要求图像透明度调整，就可以采用色彩遮罩执行混合，以便获得图像透明度的可视效果。\n[0077] 装饰图像的内容可以具有多种格式，诸如图像(jpg、gif、bmp、tiff等)、动画剪辑(anigif、flash等)、视频剪辑(mp4等)等等。\n[0078] 在3G-324M视频通话协议中，可以使用H.245协议(处理呼叫控制)的用户输入指示字段，以允许在移动终端之间的实时交互。也就是说，一个用户可以使用在视频电视协议中的控制协议，来控制对不同用户的移动终端的装饰图像过程。例如，使用某些字段(例如，用户输入指示::字母数字字段，用户输入指示::非标准参数字段)，就可以支持用于发送用户键盘输入的DTMF(双音多频)、视频通话、简单用户定义的符号传输等。\n[0079] 可以使用在3G-324M协议中的H.245协议(处理呼叫控制)的用户输入指示字段的非标准参数，在移动终端之间发送图像装饰调整符号。如果发送分离的装饰图像，可以采用3G-324M协议的数据协议。\n[0080] 本文中的特征提供了在至少两个用户之间执行视频通话的方法，该方法包括：从一个用户的被捕获面部图像中检测某些面部特征；使装饰图像与检测的某些面部特征同步，以使装饰图像匹配，并跟随在被捕获面部图像中的任何移动；当根据同步而在被捕获面部图像上以图形方式附加装饰图像时，形成组合的图像；将组合的图像发送到其它用户，以执行视频通话。\n[0081] 通过比较色彩、亮度和色调对比度中的任何一个因素，就可以执行检测，这些色彩、亮度和色调对比度指示了被捕获面部图像的某些面部特征的位置。可以通过图形图像处理技术来执行同步，上述图形图像处理技术考虑了与在捕获面部图像中检测的某些面部特征有关的移动、旋转、斜率和图像缩放比例中的至少一个因素。可以通过图形图像处理技术来执行形成，这些图形图像处理技术采用了图像色彩遮罩、图像色彩混合、对于装饰图像和捕获面部图像的图像透明度控制中的至少一种方式。可以通过使用无线通信协议来执行发送。在视频通话期间可以实时重复地执行这些步骤。可以由一个用户为他的移动终端启动这些步骤，或者可以由一个用户在得到来自另一用户的授权时，通过使用呼叫控制协议和/或数据控制协议的远程接入，来为其它用户的移动终端的一个用户启动这些步骤。\n[0082] 本文描述的特征可以采用各种类型的技术以软件、硬件或软件和硬件相结合的形式来实现，这些技术是诸如WCDMA网络、HSDPA(高速下行链路分组接入)网络等。\n[0083] 本文特征可以具体实现为多种形式，应当认识到前面描述的所有内容并不会限制上述的实施例，除非是另有规定，上述的实施例是在如附加权利要求书中限定的范围内概括构造的，因此这意味着在权利要求书的范围内、或这些范围的等效内容中涵盖的所有变化或修改都应当是由附加的权利要求书所包含。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN1559053A	2004-12-29	2001-11-28	用于在移动终端中生成图形表示的方法失效专利	诺基亚有限公司
2	CN1499816A	2004-05-26	2003-11-05	图像处理方法及其装置有效专利	松下电器产业株式会社

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供