1.一种用于转换多媒体数据以传送到多个目标设备的方法,包 括:
根据目标设备(110)的能力从多个转换操作中选择转换操作; 以及
利用所述选择的转换操作并基于多媒体表示内的媒体数据的描 述数据和复合数据,根据所述多媒体表示的源版本(100)创建适合 于所述目标设备的所述多媒体表示的适配版本(120),所述多媒体 表示的所述适配版本包含对应于所述多媒体表示的媒体数据(102) 的源版本的适配的媒体数据。
2.权利要求1的方法,其特征在于,创建适配版本包括:
将所述多媒体表示的描述数据的源版本转换为描述数据的目标 版本(212);以及
根据所述描述数据的所述目标版本生成所述适配的媒体数据 (216)。
3.权利要求1的方法,其特征在于,创建适配版本包括:
根据所述多媒体表示的描述数据的源版本导出所述媒体数据的 源版本(208);以及
将所述媒体数据的所述源版本转换为所述适配的媒体数据 (210)。
4.权利要求1的方法,其特征在于,创建适配版本包括:
为所述媒体数据的所述源版本中的多个媒体对象中的每个媒体 对象准备适配的媒体对象。
5.权利要求1的方法,其特征在于,创建适配版本包括:
如果所述媒体数据的所述源版本包括视频数据和图像数据其中 至少之一项,则调整空间分辨率和时间分辨率其中至少一项。
6.权利要求1的方法,其特征在于,创建适配版本包括:
根据期望的比特率调整所述媒体数据的所述源版本的比特率。
7.如权利要求6的方法,其特征在于,所述期望的比特率基于 用户偏好、传输媒体带宽和目标设备能力中的至少一项。
8.权利要求1的方法,其特征在于,创建适配版本包括:生成 所述媒体数据的概要形式的所述源版本。
9.如权利要求1所述的方法,其特征在于,所述多媒体表示的 所述适配版本还包括对应于所述多媒体表示的复合数据(420)的源 版本的适配的复合数据(440)。
10.权利要求9的方法,其特征在于,创建适配版本包括:
根据所述目标设备的能力和所述适配的媒体数据的特性,生成所 述适配的复合数据。
11.权利要求9的方法,其特征在于,创建适配版本包括:
将所述多媒体表示的描述数据的源版本转换为所述描述数据的 目标版本(212);以及
根据所述描述数据的所述目标版本生成所述适配的复合数据 (216)。
12.权利要求9的方法,其特征在于,创建适配版本包括:
根据所述多媒体表示的描述数据的源版本导出所述复合数据的 所述源版本(208);以及
将所述复合数据的所述源版本转换为所述适配的复合数据 (210)。
13.如权利要求9所述的方法,其特征在于,所述适配的复合数 据包括所述适配的媒体数据中的多个媒体对象的空间和时间布局以 及同步信息。
14.如权利要求9所述的方法,其特征在于,所述多媒体表示的 所述源版本还包括所述复合数据的所述源版本。
15.如权利要求1所述的方法,其特征在于,选择转换操作包括 将所选转换操作排序以满足最优化标准。
16.如权利要求1所述的方法,其特征在于,所述转换操作是根 据一组规则来选择的。
17.如权利要求1所述的方法,其特征在于,所述目标设备的能 力包括用于将所述适配的多媒体表示传送到所述目标设备的媒体的 特性。
18.如权利要求1所述的方法,其特征在于,所述转换操作还基 于用户偏好。
19.如权利要求1所述的方法,其特征在于还包括:
将所述多媒体表示的所述适配版本传送到所述目标设备(220)。
20.如权利要求1所述的方法,其特征在于还包括:
接收所述多媒体表示的所述源版本的媒体数据源版本、复合数据 源版本和描述数据源版本中的至少一项(200、202、206)。
21.一种用于转换多媒体数据以传送到多个目标设备的系统,包 括:
通过总线(740)连接到存储器(724)的处理器(722);
由所述处理器从所述存储器执行的转换过程,所述转换过程使所 述处理器根据目标设备(110)的能力从多个转换操作中选择转换操 作,利用所述选择的转换操作并基于多媒体表示内的媒体数据的描述 数据和复合数据,根据多媒体表示的源版本(100)创建适合于所述 目标设备的所述多媒体表示的适配版本(120),所述多媒体表示的 适配版本包含对应于所述多媒体表示的媒体数据(102)的源版本的 适配的媒体数据。
22.如权利要求21所述的系统,其特征在于,所述转换过程还 使所述处理器在创建适配版本时,将所述多媒体表示的描述数据的源 版本转换为所述描述数据的目标版本(212),并根据所述描述数据 的所述目标版本生成所述适配的媒体数据(216)。
23.如权利要求21所述的系统,其特征在于,所述转换过程还 使所述处理器在创建适配版本时,根据所述多媒体表示的描述数据的 源版本导出所述媒体数据的源版本(208),并将所述媒体数据的所 述源版本转换为所述适配的媒体数据(210)。
24.如权利要求21所述的系统,其特征在于,所述转换过程还 使所述处理器在创建适配版本时,为所述媒体数据的所述源版本中的 多个媒体对象中的每个媒体对象准备适配的媒体对象。
25.如权利要求21所述的系统,其特征在于,所述转换过程还 使所述处理器在创建适配版本时,如果所述媒体数据的所述源版本包 括视频数据和图像数据中的至少一项,则调整空间分辨率和时间分辨 率中的至少一项。
26.如权利要求21所述的系统,其特征在于,所述转换过程还 使所述处理器在创建适配版本时,根据期望的比特率调整所述媒体数 据的所述源版本的比特率。
27.如权利要求26所述的系统,其特征在于,所述期望的比特 率基于用户偏好、传输媒体带宽和目标设备能力中的至少一项。
28.如权利要求21所述的系统,其特征在于,所述转换过程还 使所述处理器,在创建适配版本时,生成所述媒体数据的概要形式 的所述源版本。
29.如权利要求21所述的系统,其特征在于,所述多媒体表示 的所述适配版本还包括对应于所述多媒体表示的复合数据(420)的 源版本的适配的复合数据(440)。
30.如权利要求29所述的系统,其特征在于,所述转换过程还 使所述处理器在创建适配版本时,根据所述目标设备的能力和所述适 配的媒体数据的特性,生成所述适配的复合数据。
31.如权利要求29所述的系统,其特征在于,所述转换过程还 使所述处理器在创建适配版本时,将所述多媒体表示的描述数据的源 版本转换为所述描述数据的目标版本(212);以及
根据所述描述数据的所述目标版本生成所述适配的复合数据 (216)。
32.如权利要求29所述的系统,其特征在于,所述转换过程还 使所述处理器在创建适配版本时,根据所述多媒体表示的描述数据的 源版本导出所述复合数据的源版本(208);以及将所述复合数据的 所述源版本转换为所述适配的复合数据(210)。
33.如权利要求29所述的系统,其特征在于,所述适配的复合 数据包括所述适配的媒体数据中多个媒体对象的空间和时间布局以 及同步信息。
34.如权利要求29所述的系统,其特征在于,所述多媒体表示 的所述源版本还包括所述复合数据的所述源版本。
35.如权利要求21所述的系统,其特征在于,所述转换过程还 使所述处理器在选择转换操作时,将所选转换操作排序以满足最优化 标准。
36.如权利要求21所述的系统,其特征在于,所述转换操作是 根据一组规则来选择的。
37.如权利要求21所述的系统,其特征在于,所述目标设备的 能力包括用于将所述适配的多媒体表示传送到所述目标设备的媒体 的特性。
38.如权利要求21所述的系统,其特征在于,所述转换过程还 使所述处理器基于用户偏好来选择转换操作。
39.如权利要求21所述的系统,其特征在于还包括:通过所述 总线连接到所述处理器的接口(736、720);以及其中所述转换过程 还使所述处理器将所述多媒体表示的所述适配版本通过所述接口传 送到所述目标设备(220)。
40.如权利要求21所述的系统,其特征在于还包括:通过所述 总线连接到所述处理器的接口(736);以及其中所述转换过程还使 所述处理器通过所述接口接收所述多媒体表示的源版本的媒体数据 源版本、复合数据源版本和描述数据源版本中的至少一项(200,202, 206)。
41.一种用于转换多媒体数据以传送到多个目标设备的设备, 包括:
用于根据目标设备(310)的能力从多个转换操作中选择转换操 作的装置;以及
用以利用所选择的转换操作(320)并基于多媒体表示内的媒体 数据的描述数据和复合数据,从多媒体表示的源版本创建适合于所 述目标设备的所述多媒体表示的适配版本的装置,所述多媒体表示 的适配版本包括对应于所述多媒体表示的媒体数据(302、304)的 源版本的适配的媒体数据(322、320)。
42.如权利要求41所述的设备,其特征在于,所述用于创建的 装置包括:
用于将所述多媒体表示的描述数据的源版本转换为所述描述数 据的目标版本(212)的装置;以及
用于根据所述描述数据的所述目标版本生成所述适配的媒体数 据(216)的装置。
43.如权利要求41所述的设备,其特征在于,所述用于创建的 装置包括:
用于根据所述多媒体表示的描述数据的源版本导出所述媒体数 据的源版本(208)的装置;以及
用于将所述媒体数据的所述源版本转换为所述适配的媒体数据 (210)的装置。
44.如权利要求41所述的设备,其特征在于,所述多媒体表示 的所述适配版本还包括对应于所述多媒体表示的复合数据(420)的 源版本的适配的复合数据(440)。
45.如权利要求44所述的设备,其特征在于,所述用于创建的 装置包括:
用于根据所述目标设备的能力和所述适配的媒体数据的特性生 成所述适配的复合数据的装置。
46.如权利要求44所述的设备,其特征在于,所述用于创建的 装置包括:
用于将所述多媒体表示的描述数据的源版本转换为所述描述数 据的目标版本(212)的装置;以及
用于根据所述描述数据的所述目标版本生成所述适配的复合数 据(216)的装置。
47.如权利要求44所述的设备,其特征在于,所述用于创建的 装置包括:
用于根据所述多媒体表示的描述数据的源版本导出所述复合数 据的源版本(208)的装置;以及
用于将所述复合数据的所述源版本转换为所述适配的复合数据 (210)的装置。
48.如权利要求44所述的设备,其特征在于,所述多媒体表示 的所述源版本还包括所述复合数据的所述源版本。
49.如权利要求41所述的设备,其特征在于还包括:用于将所 述多媒体表示的所述适配版本传送到所述目标设备(220)的装置。
50.如权利要求41所述的设备,其特征在于还包括:用于接收 所述多媒体表示的所述源版本的媒体数据源版本、复合数据源版本 和描述数据源版本中的至少一项(200、202、206)的装置。
技术领域\n本发明涉及对多媒体数据的操作,更具体地说涉及转换多媒体 数据以传送到多个异种目标设备。\n版权注释/许可声明\n本专利文档的部分开公内容含有受版权保护的资料。版权拥有 者不反对按专利商标局专利文件或记录中的原样对本专利文档或专 利公开内容制作传真形式的复制品,除此之外保留所有版权。如下 注释适用于下文及附图中描述的软件和数据。Copyright 2001,索 尼电子公司,版权所有。\n背景技术\n随着数字设备(如个人计算机,数码相机、个人数字助理(PDA)、 蜂窝电话、扫描仪等)的日益普及,按照众所周知的标准格式化的 多媒体数据正为业余爱好者到新手到行家的所有社会成员所共享。 规范多媒体数据的捕获、存储和传输的许多标准为数字设备厂商广 泛接受,并逐渐与数字设备融合,以允许观看和共享多种格式和版 本的多媒体数据。在因特网上,超文本标记语言(HTML)和同步多 媒体集成语言(SMIL)是表示多媒体内容的通用标准。HTML是万 维网联盟(W3C)定义的基于标准通用标记语言(SGML)的一种标准。 HTML将Web页面描述为一组多媒体对象、元素或资源,如图像、 视频、音频和JAVA应用程序连同表示结构。表示结构包括在因特 网浏览器中显示HTML网页时预期的多媒体资源表示的有关信息。 这包括例如不同多媒体元素的布局的有关信息。HTML采用嵌套标 记来表示表示结构。HTML的更新的版本称为XHTML,它在功能上 相当于基于XML而非SGML的HTML版本。SMIL是基于XML的 语言,用于将不同的多媒体资源(如图像、视频、音频等)集成到 单一表示内容中。SMIL包含允许引用媒体资源并控制它们的包括定 时和布局的表示内容的特征,以及用于链接到其它表示内容以创建 超媒体表示内容的特征。SMIL是一种未针对表示中所用媒体资源或 对象定义任何表示方式的复合语言。相反,SMIL定义一组允许将多 媒体资源或对象集成起来或组合到单个表示内容中的标记。虽然 HTML中存在某些SMIL特征,但SMIL侧重于媒体资源的空间和时 间的布局,并提供比HTML大的交互性控制。\n表示多媒体内容的另一标准是由运动图像专家组第4版(这里 称为MPEG-4)定义的题为“音频可视对象的编码”的ISO/EEC 14496 标准,MPEG-4规定如何将可听、可视或视听内容表示为媒体对象, 其中每个媒体对象表示为单一基本流。在MPEG-4中,媒体对象被 组织起来形成视听场景。视听场景以结构化方式表示不同多媒体对 象的复杂表示形式。在场景内,多媒体对象可以是自然的(意味着 是从自然界捕获的),也可以是合成的(意味着是用计算机或其它 装置生成的)。例如,在MPEG-4中会通过文本、图像和音频流的 媒体对象及描述如何组织这些对象的场景来描述具有音频背景的包 含文本和图像的场景。MPEG-4视听场景由组织成层次树结构(称为 场景图形)的媒体对象组成。原始媒体对象(如静止图像、视频和 音频)置于场景图形的叶部位。MPEG-4对这些原始多媒体对象中许 多对象,如视频和音频的表示方式进行了标准化,但并不限于配合 MPEG-4规定的媒体表示方式来使用。每个媒体对象包含允许将该对 象包含进视听场景中的信息。\n在场景图形底部可找到作为树叶的原始媒体对象。更一般地说, MPEG-4的场景描述可以在空间上将媒体对象置于二维(2D)和三 维(3D)坐标系中,并应用转换(例如空间转换,旋转)来改变对 象的表示方式,将原始媒体对象组成复合媒体对象,以及使场景内 对象的表示同步。MPEG-4场景描述是基于虚拟现实建模语言 (VRML)的概念构建的。Web 3D联盟为VRML场景定义了基于XML 的表示方式,称为可扩展3D(X3D)。虽然以优化二进制方式对MPEG-4 场景进行了编码以便传输,但MPEG已为MPEG-4场景描述定义了 基于XML的表示方式,称为可扩展MPEG-4文本格式(XMT)。XMT 利用基于XML的文本语法表示MPEG-4场景描述。\nXMT可以与SMIL、VRML和MPEG-4播放器互操作。XMT 格式可以直接由SMIL播放器解释并回放,并很容易地转换为X3D 格式,之后由X3D或VRML播放器来回放。XMT还可以编译为 MPEG-4表示形式,如MPEG-4文件格式(称为MP4),随后可以 由MPEG-4播放器来播放。XMT包含两种不同的格式:XMT-A格 式和XMT-Ω格式。XMT-A是MPEG-4内容的基于XML的版本, 它含有一个X3D子集,该子集带XD3扩展,以允许表示特定于 MPEG-4的特征。XMT-A在MPEG-4文本和二进制格式提供一一映 射。XMT-Ω是基于SMIL的MPEG-4场景的高级版本。\n数字多媒体信息的发布和使用范围不断扩大,以致难以识别用 户特别感兴趣的内容。各种组织尝试通过提供多媒体信息内容的描 述来解决此问题。这种描述信息可用于搜索、过滤和/或浏览,以查 找指定的内容。运动图像专家组(MPEG)颁布了通称为MPEG-7的 多媒体内容描述接口标准,用于将多媒体信息的内容描述标准化。 与在先的MPEG标准(包括定义如何表示编码多媒体内容的MPEG- 4)相反,MPEG-7规定如何描述多媒体内容。\n就内容的描述而言,MPEG-7可用于描述MPEG-4、SMIL、 HTML、VRML以及其它多媒体内容数据。MPEG-7采用数据定义语 言(DDL)(DDL规定用于定义描述工具的标准集合和定义新描述 工具的语言),并提供核心的描述符和描述模式集。描述符和描述 模式集的DDL定义组织成用于不同内容类的“模式(schema)”。 模式中的每个描述符的DDL定义规定对应特征的语法和语义。模式 中每种描述模式的DDL定义规定其子组件、描述符和描述模式之间 的关系的结构和语义。MPEG-7DDL的格式基于XML和XML模式 标准,其中描述符、描述模式、语义、语法和结构用XML元素和XML 属性来表示。\n发明内容\n转换多媒体表示以便在多个异种目标设备上播放。基于目标设 备的能力来选择转换操作,并将选择的转换操作用于根据多媒体表 示的源版本创建适配的多媒体表示版本。适配版本包含对应于多媒 体表示的媒体数据的源版本的适配的媒体数据。在一个方面中,适 配的多媒体表示版本还包含对应于多媒体表示的复合数据的源版本 的适配的复合数据。在另一方面,适配的媒体数据是根据多媒体表 示的描述数据的源版本创建的。\n按照本发明的第一方面的一种用于转换多媒体数据以传送到多 个目标设备的方法,包括:根据目标设备的能力从多个转换操作中 选择转换操作;以及利用所述选择的转换操作并基于多媒体表示内 的媒体数据的描述数据和复合数据,根据所述多媒体表示的源版本 创建适合于所述目标设备的所述多媒体表示的适配版本,所述多媒 体表示的所述适配版本包含对应于所述多媒体表示的媒体数据的源 版本的适配的媒体数据。\n按照本发明的第二方面的一种用于转换多媒体数据以传送到多 个目标设备的系统,包括:通过总线连接到存储器的处理器;由所 述处理器从所述存储器执行的转换过程,所述转换过程使所述处理 器根据目标设备的能力从多个转换操作中选择转换操作,利用所述 选择的转换操作并基于多媒体表示内的媒体数据的描述数据和复合 数据,根据多媒体表示的源版本创建适合于所述目标设备的所述多 媒体表示的适配版本,所述多媒体表示的适配版本包含对应于所述 多媒体表示的媒体数据的源版本的适配的媒体数据。\n按照本发明的第三方面的一种用于转换多媒体数据以传送到多 个目标设备的设备,包括:用于根据目标设备的能力从多个转换操 作中选择转换操作的装置;以及用以利用所选择的转换操作并基于 多媒体表示内的媒体数据的描述数据和复合数据,从多媒体表示的 源版本创建适合于所述目标设备的所述多媒体表示的适配版本的装 置,所述多媒体表示的适配版本包括对应于所述多媒体表示的媒体 数据的源版本的适配的媒体数据。\n附图说明\n通过阅读下面详细说明并参考附图,将会清楚本发明的创新特 征,附图中:\n图1说明本说明书所述转换方法的概念示意图;\n图2A说明本说明书所述转换方法的一个实施例所采用的操作流 程图;\n图2B说明本说明书所述转换方法的一个实施例所采用的操作流 程图;\n图3说明根据本说明书所述方法的适配过程的实施例的一个实 例;\n图4说明本说明书所述适配转换方法的一个特定实例;\n图5A说明例示源多媒体表示数据;\n图5B说明例示目标多媒体表示数据;\n图6A、6B和6C说明例示转换规则;\n图7说明可以实施本说明书所述转换和适配方法的实施例的环 境。\n具体实施方式\n本说明书所述的转换允许对多媒体表示进行转换,以便传送到 多个异种设备。多媒体表示可以包括媒体数据、复合数据和描述数 据。在一个实施例中,本说明书所述的转换操作对源版本的媒体数 据及(可选的)复合数据进行调整,以便可以在目标设备上或一类 目标设备上播放所述多媒体表示。在另一个实施例中,源多媒体表 示只包含可据以导出适配的媒体数据及(可选的)复合数据的描述 数据。\n为表示图像、音频和视频内容而定义的数据,如用于图像的众 所周知的GIF和JPEG格式、用于音频的MP3和WAV格式以及用 于视频的MPEG-1和MPEG-2格式及其它类似格式在本文中概括地 称为媒体数据,而图像、视频或视频数据的单个实例称为媒体对象。 其它标准规定有一些语言格式,用于定义如何在空间和时间上组合 媒体对象以形成单一相关多媒体表示。这些标准,如运动图像专家 组MPEG-4(MPEG-4)标准、万维网联盟(W3C)同步媒体集成语 言(SMIL)、虚拟现实建模语言(VRML)、可扩展3D(X3D)、 超文本标记语言(HTML)以及其它类似标准在本文中称为复合标准, 结合这些标准的指令称为复合数据。复合数据规定媒体对象的空间 和时间布局及其同步方式。复合数据连同复合数据引用的所有相关 媒体数据这里被称为多媒体表示数据,多媒体表示数据的实例称为 多媒体表示。可以独立于媒体数据的格式来选择复合数据的格式, 因为复合数据格式是与媒体数据格式无关的。其它诸如MPEG-7(全 称为多媒体内容描述接口标准)的标准规定描述多媒体内容的格式。 MPEG-7标准所涵盖的数据通常称为元数据,即描述其它数据的数 据。称为元数据且由MPEG-7及其它标准定义的数据这里称为描述 数据。描述数据可以在多媒体表示中与媒体数据和复合数据组合。 在各种实施例中,包含多媒体表示数据的媒体数据、复合数据和描 达数据以及多媒体表示数据本身可以其它众所周知的格式来表示。\n本说明书所述的转换和适配操作可以自动或半自动方式对源多 媒体表示(包括媒体数据、复合数据以及描述数据中的一项或多项) 进行调整和转换,以便传送到多个异种目标设备上显示。适配是通 过运用转换过程来实现的,所述转换过程作用于媒体数据、复合数 据和描述数据的结构化表示、如XML。这种适配过程可以对结构化 复合数据表示,如MPEG-4、XMT、SMIL、HTML和VRML/X3D 执行。可以按照MPEG-7标准来表示描述数据。适配过程可以通过 一组重写或转换规则来实现,这些规则规定应该如何转换多媒体表 示的复合数据、媒体数据和描述数据,以便在目标设备上显示。这 些规则可以利用源媒体数据、源复合数据和/或源描述数据以及用户 偏好或设备能力信息来确定如何执行适配过程。\n图1说明本说明书所述转换方法的概念示意图。在一个实施例 中,多媒体表示100可包含媒体数据102、复合数据104和描述数据 106。多媒体数据100由转换引擎110处理,它参照每种型号、类型 或类的目标设备的转换规则根据目标设备的能力来对包括媒体数 据、复合数据和描述数据的多媒体表示进行调整。在一个实施例中, 针对特定设备进行调整的各种规则可以插件模块的形式结合到转换 引擎中。可以将源多媒体表示的适配版本传送到各种目标设备。例 如,第一版本120A可以传送到第一设备130A,第二版本120B可以 传送到第二设备130B,依此类推,直到可以传送到设备N 130N的 第N版本120N。\n图2A说明本说明书所述转换方法的一个实施例所采用的操作流 程图。该操作流程对应于图1所示的转换引擎110执行的操作。应 理解,在不背离本发明范围的前提下,可以将或多或少的处理过程 结合于图2A所示的方法及本说明书中所述的其它方法和过程中,并 且本说明书所述和所示的功能块的安排方式并不隐含任何特定顺 序。在一个实施例中,如方框200所示,接收包含媒体数据、复合 数据和描述数据的多媒体表示。在另一个实施例中,如方框202所 示,可以接收包含媒体数据和复合数据的多媒体表示。在此实施例 中,如方框204所示,可以从媒体数据和复合数据导出描述数据。 从媒体数据导出描述数据可以根据题为“内容数据和描述数据之间 的自动译码(Transcoding between Content Data and Description Data)” (“′891申请”)的美国专利申请No.10/114891所述的方法来实现。 如方框210所示,可针对每种目标设备或每一通用类的目标设备将 包含媒体数据、复合数据和描述数据的多媒体表示转换成多个版本。 更具体地说,根据定义每种目标设备所需的调整的规则,基于多媒 体数据所要传送到的目标设备的特征和能力将多媒体表示转换成多 个目标版本。这样,目标版本适合于目标设备的能力。转换还可以 基于转换系统和/或目标设备的用户偏好并由该用户偏好控制。适配 的多媒体表示的相应版本传送到目标设备,如方框220所示。此传 送操作可以自动进行,例如通过目标设备的订阅操作进行,或者可 以应目标设备的特定传送请求而进行。\n图2B说明本说明书所述转换方法的一个实施例所采用的操作流 程图。在此实施例中,转换处理过程接收多媒体表示的描述数据, 如方框206所示。在一个实施例中,转换处理过程直接对源描述数 据操作。在此实施例中,源描述数据用于导出源媒体数据和源复合 数据,如方框208所示。此转换操作根据对源描述数据操作的一组 规则来控制。此转换操作可以通过各种方法来实现,包括利用′891申 请中所述的方法。在此实施例中,从源描述数据导出的源媒体数据 可以从一个或多个媒体源获得。这些媒体源可位于本地位置,也可 能位于需要通过一个或多个网络(例如因特网)进行通信的远程位 置。根据每种目标设备的规则将所得的多媒体表示转换成多种目标 版本(如方框210所示),以创建目标多媒体表示。转换还可以基 于转换系统和/或目标设备的用户偏好并由该用户偏好控制。适配的 多媒体表示的适当版本被传送到目标设备,如方框220所示。\n在另一个实施例中,源描述可以根据对应于每种目标设备的规 则转换成目标描述数据,如方框212所示。目标描述数据描述要针 对目标设备进行调整的媒体数据。对应于目标设备的目标复合数据 和目标媒体数据是从目标描述数据生成的,如方框216所示。此操 作可以通过各种方法来实现,包括利用′891申请中所述的方法。在此 实施例中,可以从一个或多个媒体源获得根据目标描述数据生成的 目标媒体数据。这些媒体源可以位于本地位置,也可以位于需要通 过一个或多个网络(例如因特网)进行通信的远程位置。将适配的 多媒体表示的适当版本传送到目标设备,如方框220所示。\n在一个实施例中,将所接收到的包含源描述数据、复合数据和 源媒体数据的源多媒体以及导出的源描述数据,导出的源媒体数据 和导出的源复合数据表示为基于XML的表示,如SMIL或称为 XMT-Q的可扩展MPEG-4文本格式,XMT-Q是采用XML的MPEG-4 表示形式,类似于SMIL。所描述的转换方法还可以应用于以其它二 进制形式存储的MPEG-4数据,方法是利用众所周知的方法(如XMT 的MPEG-4参考软件中公开的那些方法)将其转换为基于XML的表 示,类似于XMT。复合数据和描述数据都可以表示为XML文档。 因此,适配过程是一个XML文档转换为另一个XML文档的过程。 因而,在一个实施例中,适配处理实现为一组转换规则,这些规则 作用于表示源描述数据、媒体数据和复合数据的XML数据结构,例 如对复合数据应用SMIL/XMT数据和对描述数据应用MPEG-7。转 换多媒体表示的规则可以可扩展样式表语言(XSL)和可扩展样式表 语言转换(XSLT)的扩展形式来编写。即,一个或多个XSLT文件 可以控制如何转换多媒体数据,以便传送到目的设备并予以表示。\n在一个实施例中,转换过程包括将一组转换规则应用于多媒体 表示的描述数据。这些转换规则可以视为重写规则。每个规则可以 规定一个条件和操作对。每个规则的条件部分定义何时应用该规则, 它是参照描述数据的结构化表示和目标设备能力表示的一部分来定 义的。规则的操作部分根据源描述数据构造目标描述数据的一部分。 转换过程通过重复应用其条件匹配的规则来进行,直到不再有匹配 演化的描述数据的所述规则或者满足停止条件为止。停止条件在目 标描述数据满足可在目标设备上显示的多媒体表示的描述要求时出 现。在各种实施例中,应用规则的过程可以是确定的或非确定的。\n在某些实施例中,可以将成本与每个规则相关联,以便可以利 用本技术领域人员熟知的搜索和优化技术,应用搜索算法来查找最 佳或接近最佳的规则序列,这些规则序列以最小的成本实现源描述 转换。与规则对应的成本可以表示目标数据在何种程度上满足对表 示进行的调整所针对的目标设备的要求。\n当描述数据以XML方式表示或可以映射到等效的基于XML的 表示时,转换可以利用XSLT编写的规则来实现,以及可以利用本 技术领域人员熟知的技术通过XSLT引擎来实现。一旦通过转换过 程创建了目标描述数据,就可以将′891申请中所述的方法应用于将描 述数据转译成目标媒体数据和目标复合数据。\n目标媒体数据是通过将源媒体数据映射成目标描述数据中所描 述的目标媒体的应用媒体适配方法从源媒体数据生成的。例如,当 目标描述中的图像尺寸指定不同的图像尺寸时,就对图像应用对应 的尺寸缩放操作。\n在另一个实施例中,转换过程利用描述数据所控制的规则同时 转换媒体数据和复合数据。此过程中所用的描述数据可以由外部提 供,也可以自动生成。在此实施例中,转换过程由两种协同操作以 对多媒体表示进行调整的转换操作组成:转换媒体数据的媒体转换; 以及转换复合数据结构的复合转换。这种转换过程应用一序列的媒 体和/或复合转换。\n媒体转换可包括利用熟知的信号处理算法实现的低级操作,所 述信号处理算法例如执行格式转换的操作,如将图像从JPEG转换成 GIF格式;或者改变媒体的低级属性的操作,如改变音频数据的采样 率和缩放图像。其它媒体转换操作可以将媒体从一种格式转换成另 一种,例如将视频转换成一序列表示媒体概要、如关键帧的图像。 转换过程不依赖于源数据创作或创建实现的细节,但是需要知道目 标媒体的格式。在一个实施例中,以插件组件的形式来实现原子媒 体转换,其中所述插件组件输出描述由该插件组件实现的转换的标 准接口。\n复合转换作用于复合数据的结构化数据表示。这样的表示在采 用诸如SMIL、XMT等复合数据格式时可以是基于XML的。复合转 换还可以通过将其它表示转换成等效的基于XML的格式来实现。针 对转换描述数据所述的类似技术还可用于实现复合转换。\n在本说明书所述的转换方法的一个实施例中,将一组规则用于 确定和控制对媒体和复合数据进行联合适应性调整。在此实施例中, 每个规则指定一个条件和操作对。每个规则的条件部分定义何时对 复合/媒体数据应用该规则,它是参照这里所引用的复合数据和媒体 数据的复合数据和相关描述数据的结构化表示的一部分来定义的。 操作部分运用媒体和复合调整,生成目标多媒体表示所需的目标复 合数据结构和媒体数据。转换过程包括重复应用条件匹配的规则, 直到不再有这样的规则可应用或出现停止条件为止。停止条件出现 在目标复合数据和媒体数据满足可在目标设备上显示的多媒体表示 的要求时。应用规则的过程可以是确定或非确定的。\n在某些实施例中,可以将成本与每个规则相关联,以便可以利 用本技术领域人员熟知的搜索和优化技术,应用搜索算法来查找最 佳或接近最佳的规则序列,这些规则序列以最小的成本实现源描述 转换。这种成本可以反映所得的输出目标数据在何种程度上满足对 表示进行的调整所针对的目标设备的要求。\n当复合数据以XML方式表示,或可以映射到等效的基于XML 的表示时,转换可以利用XSLT编写的规则来实现以及利用本技术 领域人员熟知的技术通过XSLT引擎来实现。\n图3说明本说明书所述方法的适配过程的实施例的一个实例。 多媒体表示300可包含音频数据302和视频数据304形式的媒体数 据,音频数据302和视频数据304按照MPEG-4/SMIL树结构化格式 中的复合数据进行编排。在一个实施例中,音频数据可以是MP3或 其它熟知的音频格式,视频数据可以是MPEG-4视频或其它熟知的 视频内容数据格式。除了媒体数据外,多媒体表示还可包含描述数 据。转换引擎310接收多媒体数据并对其进行调整,以便可以传送 并在各种目标播放设备340上播放或以其它方式显示。转换引擎310 所执行的适配可以包括媒体转换,如当播放设备不能播放视频数据 时将视频数据转换成一序列静止帧,如元素324所示。适配操作还 可包括将语音转换成文本,如元素322所示。这样,调整的媒体数 据可以适当的方式显示于目标设备上,并执行复合转换,如图元素330 所示。即,可以将熟知格式(如SMIL或HTML等)的复合数据连 同调整的媒体数据提供给目的设备,以便以符合特定调整处理的合 理方式显示调整的媒体数据。例如,当把组合音视频片段中的多媒 体内容调整为一序列静止帧和文本时,静止帧的显示必须与文本协 调,以便观看者能够欣赏相应的显示。播放设备340可以包括电视 机342、PDA 344和蜂窝电话346。在一个实施例中,电视机可以接 收多媒体数据的适配版本,该版本符合国家电视标准委员会 (NTSC)、逐行倒相制式(PAL)、数字电视(DTV)以及其它类 似标准,而提供给PDA和蜂窝电话的版本可以是源多媒体数据的降 低了图像帧分辨率、降低了帧速率、减少了颜色数量等的降等级版 本。\n此外,降等级版本还可加以调整以减小多媒体数据的大小,从 而适应借以将多媒体数据的适配版本传送到或以其它方式传递到目 标设备的介质的带宽限制。例如,要通过蜂窝电话系统传送的数据 必须小于可以通过蓝牙或IEEE 802.11无线系统传送的数据,因为蜂 窝电话系统的带宽较小。同样地,对应于符合IEEE 802.11、802.11a、 802.11b和802.11g标准的各类目标设备,可以创建不同的适配版本。 这样,适配的多媒体表示的保真度或质量可加以定制,以便与目标 设备的通信流的能力和特性以及目标设备的分辨率、色彩和其它特 征和功能相匹配。\n图4说明本说明书所述适配转换方法的一个特定实例。在此实 例中,源多媒体表示410可以是例如电视机400上显示的有关足球 比赛的音视频馈送信号。此多媒体表示可以包括媒体数据、描述数 据和复合数据。源复合数据420可以根据复合适配方法426来调整, 以创建或导出适配的复合数据440,视频数据422形式的媒体数据可 以通过视频适配方法424来调整。更具体来说,如果要调整视频数 据以便在PDA上显示,则可将每秒40帧、每帧1200×1600点/每英 寸的源视频数据调整为或低等级为每秒15帧、每帧20×30点/每英 寸,如降等级视频数据428所示。如果要适配局限性更大的目标设 备(如蜂窝电话),则可以将视频数据调整成一序列静止帧,这些 静止帧不同时刻的足球比赛画面。同样地,如果有与多媒体源表示 内容相关联的音轨或语音信道,可以将该语音调整成文本。在此情 况中,复合适配必须考虑文本与静止图像的协调和对齐,以在蜂窝 电话上得到可以理解的表示形式。最终结果为目标PDA 460上显示 的适配的目标多媒体表示450。本段落所述的适配方式称为模态适配 或模态转换。模态转换包括将媒体数据从源模态转换成目标模态, 如从视频转换为静止图形,从第一语言转换为第二语言以及从语音 转换为文本。\n图5A说明例示源多媒体表示数据,而图5B说明例示目标多媒 体表示数据。图5A和5B中的例示多媒体表示数据显示SMIL格式 的复合数据。在这些示例中,出于说明的目的,简化了复合数据。 所示源多媒体表示用于高性能设备,如个人计算机,所用语言为英 语。目标多媒体表示是调整源多媒体表示以适应功能低的设备(如 PDA)并将语言从英语改为日语的结果。更具体地说,图5A显示的 是可以显示高质量的视频和音频的高性能设备的SMIL复合数据的摘 录。该摘录是类似于图4所示的足球比赛的多媒体概要信息的一部 分。图5B显示的是适用于性能较低的设备的同样的摘录,该设备不 能显示视频,且只可播放低质量音频。\n图5A所示的源复合数据具有同时显示的三个媒体对象,如
元素526所示,它指示并行显示。第一个媒体对象(由法律信息
- 2011-02-23
未缴年费专利权终止
IPC(主分类): G06F 15/16
专利号: ZL 02827912.3
申请日: 2002.12.10
授权公告日: 2007.10.10
- 2007-10-10
- 2006-03-01
- 2006-01-04
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| | 暂无 |
1996-12-17
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |