对多媒体数据进行转换以将其传送到多个异种设备

发明专利无效专利

申请号：
CN02827912.3
IPC分类号：G06F15/16G06F9/00H04L12/28H04J3/24
申请日期：
2002-12-10
申请人：
索尼电子有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	对多媒体数据进行转换以将其传送到多个异种设备
申请号	CN02827912.3	申请日期	2002-12-10
法律状态	权利终止	申报国家	中国
公开/公告日	2006-01-04	公开/公告号	CN1717674
优先权	暂无	优先权号	暂无
主分类号	G06F15/16 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F15/00 通用数字计算机（零部件入G06F 1/00至G06F 13/00组）；通用数据处理设备 G06F15/16 两个或多个数字计算机的组合，每台计算机至少具有一个运算单元、一个程序单元和一个寄存器，例如，用于数个程序的同时处理〔1，2006.01〕	IPC分类号	G06F15/16;G06F9/00;H04L12/28;H04J3/24查看分类表>
申请人	索尼电子有限公司	申请人地址	美国新*** 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	索尼电子有限公司	当前权利人	索尼电子有限公司
发明人	A·J·塔巴塔拜;T·沃尔克;M·Z·维沙拉姆
代理机构	中国专利代理（香港）有限公司	代理人	杨凯;王勇

摘要

转换多媒体表示(100)，以在多个异种目标设备(130)上播放。根据目标设备(110)的能力选择转换操作，并将其用于根据多媒体表示的源版本创建该多媒体表示的适配版本(120)。该适配版本包含对应于该多媒体表示的媒体数据(102)的源版本的适配的媒体数据。

1.一种用于转换多媒体数据以传送到多个目标设备的方法，包括：
根据目标设备(110)的能力从多个转换操作中选择转换操作；以及
利用所述选择的转换操作并基于多媒体表示内的媒体数据的描述数据和复合数据，根据所述多媒体表示的源版本(100)创建适合于所述目标设备的所述多媒体表示的适配版本(120)，所述多媒体表示的所述适配版本包含对应于所述多媒体表示的媒体数据(102) 的源版本的适配的媒体数据。
2.权利要求1的方法，其特征在于，创建适配版本包括：
将所述多媒体表示的描述数据的源版本转换为描述数据的目标版本(212)；以及
根据所述描述数据的所述目标版本生成所述适配的媒体数据 (216)。
3.权利要求1的方法，其特征在于，创建适配版本包括：
根据所述多媒体表示的描述数据的源版本导出所述媒体数据的源版本(208)；以及
将所述媒体数据的所述源版本转换为所述适配的媒体数据 (210)。
4.权利要求1的方法，其特征在于，创建适配版本包括：
为所述媒体数据的所述源版本中的多个媒体对象中的每个媒体对象准备适配的媒体对象。
5.权利要求1的方法，其特征在于，创建适配版本包括：
如果所述媒体数据的所述源版本包括视频数据和图像数据其中至少之一项，则调整空间分辨率和时间分辨率其中至少一项。
6.权利要求1的方法，其特征在于，创建适配版本包括：
根据期望的比特率调整所述媒体数据的所述源版本的比特率。
7.如权利要求6的方法，其特征在于，所述期望的比特率基于用户偏好、传输媒体带宽和目标设备能力中的至少一项。
8.权利要求1的方法，其特征在于，创建适配版本包括：生成所述媒体数据的概要形式的所述源版本。
9.如权利要求1所述的方法，其特征在于，所述多媒体表示的所述适配版本还包括对应于所述多媒体表示的复合数据(420)的源版本的适配的复合数据(440)。
10.权利要求9的方法，其特征在于，创建适配版本包括：
根据所述目标设备的能力和所述适配的媒体数据的特性，生成所述适配的复合数据。
11.权利要求9的方法，其特征在于，创建适配版本包括：
将所述多媒体表示的描述数据的源版本转换为所述描述数据的目标版本(212)；以及
根据所述描述数据的所述目标版本生成所述适配的复合数据 (216)。
12.权利要求9的方法，其特征在于，创建适配版本包括：
根据所述多媒体表示的描述数据的源版本导出所述复合数据的所述源版本(208)；以及
将所述复合数据的所述源版本转换为所述适配的复合数据 (210)。
13.如权利要求9所述的方法，其特征在于，所述适配的复合数据包括所述适配的媒体数据中的多个媒体对象的空间和时间布局以及同步信息。
14.如权利要求9所述的方法，其特征在于，所述多媒体表示的所述源版本还包括所述复合数据的所述源版本。
15.如权利要求1所述的方法，其特征在于，选择转换操作包括将所选转换操作排序以满足最优化标准。
16.如权利要求1所述的方法，其特征在于，所述转换操作是根据一组规则来选择的。
17.如权利要求1所述的方法，其特征在于，所述目标设备的能力包括用于将所述适配的多媒体表示传送到所述目标设备的媒体的特性。
18.如权利要求1所述的方法，其特征在于，所述转换操作还基于用户偏好。
19.如权利要求1所述的方法，其特征在于还包括：
将所述多媒体表示的所述适配版本传送到所述目标设备(220)。
20.如权利要求1所述的方法，其特征在于还包括：
接收所述多媒体表示的所述源版本的媒体数据源版本、复合数据源版本和描述数据源版本中的至少一项(200、202、206)。
21.一种用于转换多媒体数据以传送到多个目标设备的系统，包括：
通过总线(740)连接到存储器(724)的处理器(722)；
由所述处理器从所述存储器执行的转换过程，所述转换过程使所述处理器根据目标设备(110)的能力从多个转换操作中选择转换操作，利用所述选择的转换操作并基于多媒体表示内的媒体数据的描述数据和复合数据，根据多媒体表示的源版本(100)创建适合于所述目标设备的所述多媒体表示的适配版本(120)，所述多媒体表示的适配版本包含对应于所述多媒体表示的媒体数据(102)的源版本的适配的媒体数据。
22.如权利要求21所述的系统，其特征在于，所述转换过程还使所述处理器在创建适配版本时，将所述多媒体表示的描述数据的源版本转换为所述描述数据的目标版本(212)，并根据所述描述数据的所述目标版本生成所述适配的媒体数据(216)。
23.如权利要求21所述的系统，其特征在于，所述转换过程还使所述处理器在创建适配版本时，根据所述多媒体表示的描述数据的源版本导出所述媒体数据的源版本(208)，并将所述媒体数据的所述源版本转换为所述适配的媒体数据(210)。
24.如权利要求21所述的系统，其特征在于，所述转换过程还使所述处理器在创建适配版本时，为所述媒体数据的所述源版本中的多个媒体对象中的每个媒体对象准备适配的媒体对象。
25.如权利要求21所述的系统，其特征在于，所述转换过程还使所述处理器在创建适配版本时，如果所述媒体数据的所述源版本包括视频数据和图像数据中的至少一项，则调整空间分辨率和时间分辨率中的至少一项。
26.如权利要求21所述的系统，其特征在于，所述转换过程还使所述处理器在创建适配版本时，根据期望的比特率调整所述媒体数据的所述源版本的比特率。
27.如权利要求26所述的系统，其特征在于，所述期望的比特率基于用户偏好、传输媒体带宽和目标设备能力中的至少一项。
28.如权利要求21所述的系统，其特征在于，所述转换过程还使所述处理器，在创建适配版本时，生成所述媒体数据的概要形式的所述源版本。
29.如权利要求21所述的系统，其特征在于，所述多媒体表示的所述适配版本还包括对应于所述多媒体表示的复合数据(420)的源版本的适配的复合数据(440)。
30.如权利要求29所述的系统，其特征在于，所述转换过程还使所述处理器在创建适配版本时，根据所述目标设备的能力和所述适配的媒体数据的特性，生成所述适配的复合数据。
31.如权利要求29所述的系统，其特征在于，所述转换过程还使所述处理器在创建适配版本时，将所述多媒体表示的描述数据的源版本转换为所述描述数据的目标版本(212)；以及
根据所述描述数据的所述目标版本生成所述适配的复合数据 (216)。
32.如权利要求29所述的系统，其特征在于，所述转换过程还使所述处理器在创建适配版本时，根据所述多媒体表示的描述数据的源版本导出所述复合数据的源版本(208)；以及将所述复合数据的所述源版本转换为所述适配的复合数据(210)。
33.如权利要求29所述的系统，其特征在于，所述适配的复合数据包括所述适配的媒体数据中多个媒体对象的空间和时间布局以及同步信息。
34.如权利要求29所述的系统，其特征在于，所述多媒体表示的所述源版本还包括所述复合数据的所述源版本。
35.如权利要求21所述的系统，其特征在于，所述转换过程还使所述处理器在选择转换操作时，将所选转换操作排序以满足最优化标准。
36.如权利要求21所述的系统，其特征在于，所述转换操作是根据一组规则来选择的。
37.如权利要求21所述的系统，其特征在于，所述目标设备的能力包括用于将所述适配的多媒体表示传送到所述目标设备的媒体的特性。
38.如权利要求21所述的系统，其特征在于，所述转换过程还使所述处理器基于用户偏好来选择转换操作。
39.如权利要求21所述的系统，其特征在于还包括：通过所述总线连接到所述处理器的接口(736、720)；以及其中所述转换过程还使所述处理器将所述多媒体表示的所述适配版本通过所述接口传送到所述目标设备(220)。
40.如权利要求21所述的系统，其特征在于还包括：通过所述总线连接到所述处理器的接口(736)；以及其中所述转换过程还使所述处理器通过所述接口接收所述多媒体表示的源版本的媒体数据源版本、复合数据源版本和描述数据源版本中的至少一项(200，202， 206)。
41.一种用于转换多媒体数据以传送到多个目标设备的设备，包括：
用于根据目标设备(310)的能力从多个转换操作中选择转换操作的装置；以及
用以利用所选择的转换操作(320)并基于多媒体表示内的媒体数据的描述数据和复合数据，从多媒体表示的源版本创建适合于所述目标设备的所述多媒体表示的适配版本的装置，所述多媒体表示的适配版本包括对应于所述多媒体表示的媒体数据(302、304)的源版本的适配的媒体数据(322、320)。
42.如权利要求41所述的设备，其特征在于，所述用于创建的装置包括：
用于将所述多媒体表示的描述数据的源版本转换为所述描述数据的目标版本(212)的装置；以及
用于根据所述描述数据的所述目标版本生成所述适配的媒体数据(216)的装置。
43.如权利要求41所述的设备，其特征在于，所述用于创建的装置包括：
用于根据所述多媒体表示的描述数据的源版本导出所述媒体数据的源版本(208)的装置；以及
用于将所述媒体数据的所述源版本转换为所述适配的媒体数据 (210)的装置。
44.如权利要求41所述的设备，其特征在于，所述多媒体表示的所述适配版本还包括对应于所述多媒体表示的复合数据(420)的源版本的适配的复合数据(440)。
45.如权利要求44所述的设备，其特征在于，所述用于创建的装置包括：
用于根据所述目标设备的能力和所述适配的媒体数据的特性生成所述适配的复合数据的装置。
46.如权利要求44所述的设备，其特征在于，所述用于创建的装置包括：
用于将所述多媒体表示的描述数据的源版本转换为所述描述数据的目标版本(212)的装置；以及
用于根据所述描述数据的所述目标版本生成所述适配的复合数据(216)的装置。
47.如权利要求44所述的设备，其特征在于，所述用于创建的装置包括：
用于根据所述多媒体表示的描述数据的源版本导出所述复合数据的源版本(208)的装置；以及
用于将所述复合数据的所述源版本转换为所述适配的复合数据 (210)的装置。
48.如权利要求44所述的设备，其特征在于，所述多媒体表示的所述源版本还包括所述复合数据的所述源版本。
49.如权利要求41所述的设备，其特征在于还包括：用于将所述多媒体表示的所述适配版本传送到所述目标设备(220)的装置。
50.如权利要求41所述的设备，其特征在于还包括：用于接收所述多媒体表示的所述源版本的媒体数据源版本、复合数据源版本和描述数据源版本中的至少一项(200、202、206)的装置。

技术领域
本发明涉及对多媒体数据的操作，更具体地说涉及转换多媒体数据以传送到多个异种目标设备。
版权注释/许可声明
本专利文档的部分开公内容含有受版权保护的资料。版权拥有者不反对按专利商标局专利文件或记录中的原样对本专利文档或专利公开内容制作传真形式的复制品，除此之外保留所有版权。如下注释适用于下文及附图中描述的软件和数据。Copyright 2001，索尼电子公司，版权所有。
背景技术
随着数字设备(如个人计算机，数码相机、个人数字助理(PDA)、蜂窝电话、扫描仪等)的日益普及，按照众所周知的标准格式化的多媒体数据正为业余爱好者到新手到行家的所有社会成员所共享。规范多媒体数据的捕获、存储和传输的许多标准为数字设备厂商广泛接受，并逐渐与数字设备融合，以允许观看和共享多种格式和版本的多媒体数据。在因特网上，超文本标记语言(HTML)和同步多媒体集成语言(SMIL)是表示多媒体内容的通用标准。HTML是万维网联盟(W3C)定义的基于标准通用标记语言(SGML)的一种标准。 HTML将Web页面描述为一组多媒体对象、元素或资源，如图像、视频、音频和JAVA应用程序连同表示结构。表示结构包括在因特网浏览器中显示HTML网页时预期的多媒体资源表示的有关信息。这包括例如不同多媒体元素的布局的有关信息。HTML采用嵌套标记来表示表示结构。HTML的更新的版本称为XHTML，它在功能上相当于基于XML而非SGML的HTML版本。SMIL是基于XML的语言，用于将不同的多媒体资源(如图像、视频、音频等)集成到单一表示内容中。SMIL包含允许引用媒体资源并控制它们的包括定时和布局的表示内容的特征，以及用于链接到其它表示内容以创建超媒体表示内容的特征。SMIL是一种未针对表示中所用媒体资源或对象定义任何表示方式的复合语言。相反，SMIL定义一组允许将多媒体资源或对象集成起来或组合到单个表示内容中的标记。虽然 HTML中存在某些SMIL特征，但SMIL侧重于媒体资源的空间和时间的布局，并提供比HTML大的交互性控制。
表示多媒体内容的另一标准是由运动图像专家组第4版(这里称为MPEG-4)定义的题为“音频可视对象的编码”的ISO/EEC 14496 标准，MPEG-4规定如何将可听、可视或视听内容表示为媒体对象，其中每个媒体对象表示为单一基本流。在MPEG-4中，媒体对象被组织起来形成视听场景。视听场景以结构化方式表示不同多媒体对象的复杂表示形式。在场景内，多媒体对象可以是自然的(意味着是从自然界捕获的)，也可以是合成的(意味着是用计算机或其它装置生成的)。例如，在MPEG-4中会通过文本、图像和音频流的媒体对象及描述如何组织这些对象的场景来描述具有音频背景的包含文本和图像的场景。MPEG-4视听场景由组织成层次树结构(称为场景图形)的媒体对象组成。原始媒体对象(如静止图像、视频和音频)置于场景图形的叶部位。MPEG-4对这些原始多媒体对象中许多对象，如视频和音频的表示方式进行了标准化，但并不限于配合 MPEG-4规定的媒体表示方式来使用。每个媒体对象包含允许将该对象包含进视听场景中的信息。
在场景图形底部可找到作为树叶的原始媒体对象。更一般地说， MPEG-4的场景描述可以在空间上将媒体对象置于二维(2D)和三维(3D)坐标系中，并应用转换(例如空间转换，旋转)来改变对象的表示方式，将原始媒体对象组成复合媒体对象，以及使场景内对象的表示同步。MPEG-4场景描述是基于虚拟现实建模语言 (VRML)的概念构建的。Web 3D联盟为VRML场景定义了基于XML 的表示方式，称为可扩展3D(X3D)。虽然以优化二进制方式对MPEG-4 场景进行了编码以便传输，但MPEG已为MPEG-4场景描述定义了基于XML的表示方式，称为可扩展MPEG-4文本格式(XMT)。XMT 利用基于XML的文本语法表示MPEG-4场景描述。
XMT可以与SMIL、VRML和MPEG-4播放器互操作。XMT 格式可以直接由SMIL播放器解释并回放，并很容易地转换为X3D 格式，之后由X3D或VRML播放器来回放。XMT还可以编译为 MPEG-4表示形式，如MPEG-4文件格式(称为MP4)，随后可以由MPEG-4播放器来播放。XMT包含两种不同的格式：XMT-A格式和XMT-Ω格式。XMT-A是MPEG-4内容的基于XML的版本，它含有一个X3D子集，该子集带XD3扩展，以允许表示特定于 MPEG-4的特征。XMT-A在MPEG-4文本和二进制格式提供一一映射。XMT-Ω是基于SMIL的MPEG-4场景的高级版本。
数字多媒体信息的发布和使用范围不断扩大，以致难以识别用户特别感兴趣的内容。各种组织尝试通过提供多媒体信息内容的描述来解决此问题。这种描述信息可用于搜索、过滤和/或浏览，以查找指定的内容。运动图像专家组(MPEG)颁布了通称为MPEG-7的多媒体内容描述接口标准，用于将多媒体信息的内容描述标准化。与在先的MPEG标准(包括定义如何表示编码多媒体内容的MPEG- 4)相反，MPEG-7规定如何描述多媒体内容。
就内容的描述而言，MPEG-7可用于描述MPEG-4、SMIL、 HTML、VRML以及其它多媒体内容数据。MPEG-7采用数据定义语言(DDL)(DDL规定用于定义描述工具的标准集合和定义新描述工具的语言)，并提供核心的描述符和描述模式集。描述符和描述模式集的DDL定义组织成用于不同内容类的“模式(schema)”。模式中的每个描述符的DDL定义规定对应特征的语法和语义。模式中每种描述模式的DDL定义规定其子组件、描述符和描述模式之间的关系的结构和语义。MPEG-7DDL的格式基于XML和XML模式标准，其中描述符、描述模式、语义、语法和结构用XML元素和XML 属性来表示。
发明内容
转换多媒体表示以便在多个异种目标设备上播放。基于目标设备的能力来选择转换操作，并将选择的转换操作用于根据多媒体表示的源版本创建适配的多媒体表示版本。适配版本包含对应于多媒体表示的媒体数据的源版本的适配的媒体数据。在一个方面中，适配的多媒体表示版本还包含对应于多媒体表示的复合数据的源版本的适配的复合数据。在另一方面，适配的媒体数据是根据多媒体表示的描述数据的源版本创建的。
按照本发明的第一方面的一种用于转换多媒体数据以传送到多个目标设备的方法，包括：根据目标设备的能力从多个转换操作中选择转换操作；以及利用所述选择的转换操作并基于多媒体表示内的媒体数据的描述数据和复合数据，根据所述多媒体表示的源版本创建适合于所述目标设备的所述多媒体表示的适配版本，所述多媒体表示的所述适配版本包含对应于所述多媒体表示的媒体数据的源版本的适配的媒体数据。
按照本发明的第二方面的一种用于转换多媒体数据以传送到多个目标设备的系统，包括：通过总线连接到存储器的处理器；由所述处理器从所述存储器执行的转换过程，所述转换过程使所述处理器根据目标设备的能力从多个转换操作中选择转换操作，利用所述选择的转换操作并基于多媒体表示内的媒体数据的描述数据和复合数据，根据多媒体表示的源版本创建适合于所述目标设备的所述多媒体表示的适配版本，所述多媒体表示的适配版本包含对应于所述多媒体表示的媒体数据的源版本的适配的媒体数据。
按照本发明的第三方面的一种用于转换多媒体数据以传送到多个目标设备的设备，包括：用于根据目标设备的能力从多个转换操作中选择转换操作的装置；以及用以利用所选择的转换操作并基于多媒体表示内的媒体数据的描述数据和复合数据，从多媒体表示的源版本创建适合于所述目标设备的所述多媒体表示的适配版本的装置，所述多媒体表示的适配版本包括对应于所述多媒体表示的媒体数据的源版本的适配的媒体数据。
附图说明
通过阅读下面详细说明并参考附图，将会清楚本发明的创新特征，附图中：
图1说明本说明书所述转换方法的概念示意图；
图2A说明本说明书所述转换方法的一个实施例所采用的操作流程图；
图2B说明本说明书所述转换方法的一个实施例所采用的操作流程图；
图3说明根据本说明书所述方法的适配过程的实施例的一个实例；
图4说明本说明书所述适配转换方法的一个特定实例；
图5A说明例示源多媒体表示数据；
图5B说明例示目标多媒体表示数据；
图6A、6B和6C说明例示转换规则；
图7说明可以实施本说明书所述转换和适配方法的实施例的环境。
具体实施方式
本说明书所述的转换允许对多媒体表示进行转换，以便传送到多个异种设备。多媒体表示可以包括媒体数据、复合数据和描述数据。在一个实施例中，本说明书所述的转换操作对源版本的媒体数据及(可选的)复合数据进行调整，以便可以在目标设备上或一类目标设备上播放所述多媒体表示。在另一个实施例中，源多媒体表示只包含可据以导出适配的媒体数据及(可选的)复合数据的描述数据。
为表示图像、音频和视频内容而定义的数据，如用于图像的众所周知的GIF和JPEG格式、用于音频的MP3和WAV格式以及用于视频的MPEG-1和MPEG-2格式及其它类似格式在本文中概括地称为媒体数据，而图像、视频或视频数据的单个实例称为媒体对象。其它标准规定有一些语言格式，用于定义如何在空间和时间上组合媒体对象以形成单一相关多媒体表示。这些标准，如运动图像专家组MPEG-4(MPEG-4)标准、万维网联盟(W3C)同步媒体集成语言(SMIL)、虚拟现实建模语言(VRML)、可扩展3D(X3D)、超文本标记语言(HTML)以及其它类似标准在本文中称为复合标准，结合这些标准的指令称为复合数据。复合数据规定媒体对象的空间和时间布局及其同步方式。复合数据连同复合数据引用的所有相关媒体数据这里被称为多媒体表示数据，多媒体表示数据的实例称为多媒体表示。可以独立于媒体数据的格式来选择复合数据的格式，因为复合数据格式是与媒体数据格式无关的。其它诸如MPEG-7(全称为多媒体内容描述接口标准)的标准规定描述多媒体内容的格式。 MPEG-7标准所涵盖的数据通常称为元数据，即描述其它数据的数据。称为元数据且由MPEG-7及其它标准定义的数据这里称为描述数据。描述数据可以在多媒体表示中与媒体数据和复合数据组合。在各种实施例中，包含多媒体表示数据的媒体数据、复合数据和描达数据以及多媒体表示数据本身可以其它众所周知的格式来表示。
本说明书所述的转换和适配操作可以自动或半自动方式对源多媒体表示(包括媒体数据、复合数据以及描述数据中的一项或多项) 进行调整和转换，以便传送到多个异种目标设备上显示。适配是通过运用转换过程来实现的，所述转换过程作用于媒体数据、复合数据和描述数据的结构化表示、如XML。这种适配过程可以对结构化复合数据表示，如MPEG-4、XMT、SMIL、HTML和VRML/X3D 执行。可以按照MPEG-7标准来表示描述数据。适配过程可以通过一组重写或转换规则来实现，这些规则规定应该如何转换多媒体表示的复合数据、媒体数据和描述数据，以便在目标设备上显示。这些规则可以利用源媒体数据、源复合数据和/或源描述数据以及用户偏好或设备能力信息来确定如何执行适配过程。
图1说明本说明书所述转换方法的概念示意图。在一个实施例中，多媒体表示100可包含媒体数据102、复合数据104和描述数据 106。多媒体数据100由转换引擎110处理，它参照每种型号、类型或类的目标设备的转换规则根据目标设备的能力来对包括媒体数据、复合数据和描述数据的多媒体表示进行调整。在一个实施例中，针对特定设备进行调整的各种规则可以插件模块的形式结合到转换引擎中。可以将源多媒体表示的适配版本传送到各种目标设备。例如，第一版本120A可以传送到第一设备130A，第二版本120B可以传送到第二设备130B，依此类推，直到可以传送到设备N 130N的第N版本120N。
图2A说明本说明书所述转换方法的一个实施例所采用的操作流程图。该操作流程对应于图1所示的转换引擎110执行的操作。应理解，在不背离本发明范围的前提下，可以将或多或少的处理过程结合于图2A所示的方法及本说明书中所述的其它方法和过程中，并且本说明书所述和所示的功能块的安排方式并不隐含任何特定顺序。在一个实施例中，如方框200所示，接收包含媒体数据、复合数据和描述数据的多媒体表示。在另一个实施例中，如方框202所示，可以接收包含媒体数据和复合数据的多媒体表示。在此实施例中，如方框204所示，可以从媒体数据和复合数据导出描述数据。从媒体数据导出描述数据可以根据题为“内容数据和描述数据之间的自动译码(Transcoding between Content Data and Description Data)” (“′891申请”)的美国专利申请No.10/114891所述的方法来实现。如方框210所示，可针对每种目标设备或每一通用类的目标设备将包含媒体数据、复合数据和描述数据的多媒体表示转换成多个版本。更具体地说，根据定义每种目标设备所需的调整的规则，基于多媒体数据所要传送到的目标设备的特征和能力将多媒体表示转换成多个目标版本。这样，目标版本适合于目标设备的能力。转换还可以基于转换系统和/或目标设备的用户偏好并由该用户偏好控制。适配的多媒体表示的相应版本传送到目标设备，如方框220所示。此传送操作可以自动进行，例如通过目标设备的订阅操作进行，或者可以应目标设备的特定传送请求而进行。
图2B说明本说明书所述转换方法的一个实施例所采用的操作流程图。在此实施例中，转换处理过程接收多媒体表示的描述数据，如方框206所示。在一个实施例中，转换处理过程直接对源描述数据操作。在此实施例中，源描述数据用于导出源媒体数据和源复合数据，如方框208所示。此转换操作根据对源描述数据操作的一组规则来控制。此转换操作可以通过各种方法来实现，包括利用′891申请中所述的方法。在此实施例中，从源描述数据导出的源媒体数据可以从一个或多个媒体源获得。这些媒体源可位于本地位置，也可能位于需要通过一个或多个网络(例如因特网)进行通信的远程位置。根据每种目标设备的规则将所得的多媒体表示转换成多种目标版本(如方框210所示)，以创建目标多媒体表示。转换还可以基于转换系统和/或目标设备的用户偏好并由该用户偏好控制。适配的多媒体表示的适当版本被传送到目标设备，如方框220所示。
在另一个实施例中，源描述可以根据对应于每种目标设备的规则转换成目标描述数据，如方框212所示。目标描述数据描述要针对目标设备进行调整的媒体数据。对应于目标设备的目标复合数据和目标媒体数据是从目标描述数据生成的，如方框216所示。此操作可以通过各种方法来实现，包括利用′891申请中所述的方法。在此实施例中，可以从一个或多个媒体源获得根据目标描述数据生成的目标媒体数据。这些媒体源可以位于本地位置，也可以位于需要通过一个或多个网络(例如因特网)进行通信的远程位置。将适配的多媒体表示的适当版本传送到目标设备，如方框220所示。
在一个实施例中，将所接收到的包含源描述数据、复合数据和源媒体数据的源多媒体以及导出的源描述数据，导出的源媒体数据和导出的源复合数据表示为基于XML的表示，如SMIL或称为 XMT-Q的可扩展MPEG-4文本格式，XMT-Q是采用XML的MPEG-4 表示形式，类似于SMIL。所描述的转换方法还可以应用于以其它二进制形式存储的MPEG-4数据，方法是利用众所周知的方法(如XMT 的MPEG-4参考软件中公开的那些方法)将其转换为基于XML的表示，类似于XMT。复合数据和描述数据都可以表示为XML文档。因此，适配过程是一个XML文档转换为另一个XML文档的过程。因而，在一个实施例中，适配处理实现为一组转换规则，这些规则作用于表示源描述数据、媒体数据和复合数据的XML数据结构，例如对复合数据应用SMIL/XMT数据和对描述数据应用MPEG-7。转换多媒体表示的规则可以可扩展样式表语言(XSL)和可扩展样式表语言转换(XSLT)的扩展形式来编写。即，一个或多个XSLT文件可以控制如何转换多媒体数据，以便传送到目的设备并予以表示。
在一个实施例中，转换过程包括将一组转换规则应用于多媒体表示的描述数据。这些转换规则可以视为重写规则。每个规则可以规定一个条件和操作对。每个规则的条件部分定义何时应用该规则，它是参照描述数据的结构化表示和目标设备能力表示的一部分来定义的。规则的操作部分根据源描述数据构造目标描述数据的一部分。转换过程通过重复应用其条件匹配的规则来进行，直到不再有匹配演化的描述数据的所述规则或者满足停止条件为止。停止条件在目标描述数据满足可在目标设备上显示的多媒体表示的描述要求时出现。在各种实施例中，应用规则的过程可以是确定的或非确定的。
在某些实施例中，可以将成本与每个规则相关联，以便可以利用本技术领域人员熟知的搜索和优化技术，应用搜索算法来查找最佳或接近最佳的规则序列，这些规则序列以最小的成本实现源描述转换。与规则对应的成本可以表示目标数据在何种程度上满足对表示进行的调整所针对的目标设备的要求。
当描述数据以XML方式表示或可以映射到等效的基于XML的表示时，转换可以利用XSLT编写的规则来实现，以及可以利用本技术领域人员熟知的技术通过XSLT引擎来实现。一旦通过转换过程创建了目标描述数据，就可以将′891申请中所述的方法应用于将描述数据转译成目标媒体数据和目标复合数据。
目标媒体数据是通过将源媒体数据映射成目标描述数据中所描述的目标媒体的应用媒体适配方法从源媒体数据生成的。例如，当目标描述中的图像尺寸指定不同的图像尺寸时，就对图像应用对应的尺寸缩放操作。
在另一个实施例中，转换过程利用描述数据所控制的规则同时转换媒体数据和复合数据。此过程中所用的描述数据可以由外部提供，也可以自动生成。在此实施例中，转换过程由两种协同操作以对多媒体表示进行调整的转换操作组成：转换媒体数据的媒体转换；以及转换复合数据结构的复合转换。这种转换过程应用一序列的媒体和/或复合转换。
媒体转换可包括利用熟知的信号处理算法实现的低级操作，所述信号处理算法例如执行格式转换的操作，如将图像从JPEG转换成 GIF格式；或者改变媒体的低级属性的操作，如改变音频数据的采样率和缩放图像。其它媒体转换操作可以将媒体从一种格式转换成另一种，例如将视频转换成一序列表示媒体概要、如关键帧的图像。转换过程不依赖于源数据创作或创建实现的细节，但是需要知道目标媒体的格式。在一个实施例中，以插件组件的形式来实现原子媒体转换，其中所述插件组件输出描述由该插件组件实现的转换的标准接口。
复合转换作用于复合数据的结构化数据表示。这样的表示在采用诸如SMIL、XMT等复合数据格式时可以是基于XML的。复合转换还可以通过将其它表示转换成等效的基于XML的格式来实现。针对转换描述数据所述的类似技术还可用于实现复合转换。
在本说明书所述的转换方法的一个实施例中，将一组规则用于确定和控制对媒体和复合数据进行联合适应性调整。在此实施例中，每个规则指定一个条件和操作对。每个规则的条件部分定义何时对复合/媒体数据应用该规则，它是参照这里所引用的复合数据和媒体数据的复合数据和相关描述数据的结构化表示的一部分来定义的。操作部分运用媒体和复合调整，生成目标多媒体表示所需的目标复合数据结构和媒体数据。转换过程包括重复应用条件匹配的规则，直到不再有这样的规则可应用或出现停止条件为止。停止条件出现在目标复合数据和媒体数据满足可在目标设备上显示的多媒体表示的要求时。应用规则的过程可以是确定或非确定的。
在某些实施例中，可以将成本与每个规则相关联，以便可以利用本技术领域人员熟知的搜索和优化技术，应用搜索算法来查找最佳或接近最佳的规则序列，这些规则序列以最小的成本实现源描述转换。这种成本可以反映所得的输出目标数据在何种程度上满足对表示进行的调整所针对的目标设备的要求。
当复合数据以XML方式表示，或可以映射到等效的基于XML 的表示时，转换可以利用XSLT编写的规则来实现以及利用本技术领域人员熟知的技术通过XSLT引擎来实现。
图3说明本说明书所述方法的适配过程的实施例的一个实例。多媒体表示300可包含音频数据302和视频数据304形式的媒体数据，音频数据302和视频数据304按照MPEG-4/SMIL树结构化格式中的复合数据进行编排。在一个实施例中，音频数据可以是MP3或其它熟知的音频格式，视频数据可以是MPEG-4视频或其它熟知的视频内容数据格式。除了媒体数据外，多媒体表示还可包含描述数据。转换引擎310接收多媒体数据并对其进行调整，以便可以传送并在各种目标播放设备340上播放或以其它方式显示。转换引擎310 所执行的适配可以包括媒体转换，如当播放设备不能播放视频数据时将视频数据转换成一序列静止帧，如元素324所示。适配操作还可包括将语音转换成文本，如元素322所示。这样，调整的媒体数据可以适当的方式显示于目标设备上，并执行复合转换，如图元素330 所示。即，可以将熟知格式(如SMIL或HTML等)的复合数据连同调整的媒体数据提供给目的设备，以便以符合特定调整处理的合理方式显示调整的媒体数据。例如，当把组合音视频片段中的多媒体内容调整为一序列静止帧和文本时，静止帧的显示必须与文本协调，以便观看者能够欣赏相应的显示。播放设备340可以包括电视机342、PDA 344和蜂窝电话346。在一个实施例中，电视机可以接收多媒体数据的适配版本，该版本符合国家电视标准委员会 (NTSC)、逐行倒相制式(PAL)、数字电视(DTV)以及其它类似标准，而提供给PDA和蜂窝电话的版本可以是源多媒体数据的降低了图像帧分辨率、降低了帧速率、减少了颜色数量等的降等级版本。
此外，降等级版本还可加以调整以减小多媒体数据的大小，从而适应借以将多媒体数据的适配版本传送到或以其它方式传递到目标设备的介质的带宽限制。例如，要通过蜂窝电话系统传送的数据必须小于可以通过蓝牙或IEEE 802.11无线系统传送的数据，因为蜂窝电话系统的带宽较小。同样地，对应于符合IEEE 802.11、802.11a、 802.11b和802.11g标准的各类目标设备，可以创建不同的适配版本。这样，适配的多媒体表示的保真度或质量可加以定制，以便与目标设备的通信流的能力和特性以及目标设备的分辨率、色彩和其它特征和功能相匹配。
图4说明本说明书所述适配转换方法的一个特定实例。在此实例中，源多媒体表示410可以是例如电视机400上显示的有关足球比赛的音视频馈送信号。此多媒体表示可以包括媒体数据、描述数据和复合数据。源复合数据420可以根据复合适配方法426来调整，以创建或导出适配的复合数据440，视频数据422形式的媒体数据可以通过视频适配方法424来调整。更具体来说，如果要调整视频数据以便在PDA上显示，则可将每秒40帧、每帧1200×1600点/每英寸的源视频数据调整为或低等级为每秒15帧、每帧20×30点/每英寸，如降等级视频数据428所示。如果要适配局限性更大的目标设备(如蜂窝电话)，则可以将视频数据调整成一序列静止帧，这些静止帧不同时刻的足球比赛画面。同样地，如果有与多媒体源表示内容相关联的音轨或语音信道，可以将该语音调整成文本。在此情况中，复合适配必须考虑文本与静止图像的协调和对齐，以在蜂窝电话上得到可以理解的表示形式。最终结果为目标PDA 460上显示的适配的目标多媒体表示450。本段落所述的适配方式称为模态适配或模态转换。模态转换包括将媒体数据从源模态转换成目标模态，如从视频转换为静止图形，从第一语言转换为第二语言以及从语音转换为文本。
图5A说明例示源多媒体表示数据，而图5B说明例示目标多媒体表示数据。图5A和5B中的例示多媒体表示数据显示SMIL格式的复合数据。在这些示例中，出于说明的目的，简化了复合数据。所示源多媒体表示用于高性能设备，如个人计算机，所用语言为英语。目标多媒体表示是调整源多媒体表示以适应功能低的设备(如 PDA)并将语言从英语改为日语的结果。更具体地说，图5A显示的是可以显示高质量的视频和音频的高性能设备的SMIL复合数据的摘录。该摘录是类似于图4所示的足球比赛的多媒体概要信息的一部分。图5B显示的是适用于性能较低的设备的同样的摘录，该设备不能显示视频，且只可播放低质量音频。
图5A所示的源复合数据具有同时显示的三个媒体对象，如元素526所示，它指示并行显示。第一个媒体对象(由

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	US5953506A	暂无	1996-12-17	Method and apparatus that provides a scalable media delivery system失效专利	Devendra Kalra;Karnamadakala Krishnamohan;Venkatasubbarao Ramamoorthy;Jeyendran Balakrishnan;Timothy J. Burr;Kowsik Guruswamy

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

基于模拟电荷法确定起伏地面架空输电线路的工频电场的方法发明专利

专利服务由北京酷爱智慧知识产权代理公司提供