著录项信息
专利名称 | 使用数字图像的元数据和内容特征来找到相关音频伴奏的系统和方法 |
申请号 | CN200680043552.4 | 申请日期 | 2006-11-15 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2008-11-26 | 公开/公告号 | CN101313364 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G11B27/34 | IPC分类号 | G;1;1;B;2;7;/;3;4;;;G;1;1;B;2;7;/;2;8;;;G;1;1;B;2;7;/;3;2查看分类表>
|
申请人 | 皇家飞利浦电子股份有限公司 | 申请人地址 | 荷兰艾恩德霍芬
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 皇家飞利浦电子股份有限公司 | 当前权利人 | 皇家飞利浦电子股份有限公司 |
发明人 | B·M·斯卢伊斯;M·弗伯克特;K·H·J·夫里林克;A·里克卡尔特 |
代理机构 | 中国专利代理(香港)有限公司 | 代理人 | 李亚非;谭祐祥 |
摘要
在这里提供了一种系统(300)、设备(200)和方法(100),用于在显示具有至少一个数字图像的序列的时候自动播放/建议至少一个音频伴奏,使得音频伴奏与特定图像序列的内容相匹配,以及匹配任何提供的和/或产生的图像元数据。搜索项是从图像自身以及用户提供的任何元数据当中导出的,然后,这些搜索项被用于找到具有如下特性的音频伴奏:(1)在图像或相关文本(例如歌曲文本)中包含这些搜索项或是其同义词,或者(2)代表通常与图像相关联的声音,例如用于快速流动的小河的图像的冲水声。本发明接受用户输入,定位恰当的音频伴奏作为搜索结果,并且通过在显示图像的时候播放音频伴奏或者通过向用户建议从这些结果中编译的播放列表来将这些结果呈现给用户。
1.一种使用与至少一个图像(101)的序列相关联的内容元数据来为其提供音频伴奏的方法,包括以下步骤:
使用与该序列相关联的内容元数据,在数据库(104)中定位匹配的(105)音频伴奏;以及
提供所定位的音频伴奏(107),作为该序列的伴奏,其中对于所述匹配,内容元数据包括关键短语且数据库用关键短语索引。
2.权利要求1的方法,其中,内容元数据还包括以下至少一个:日期、时间、事件、位置、图像与用户的关系、用户特性。
3.权利要求1的方法,还包括以下步骤:
提供标准内容元数据及其同义词的辞典(104.1);以及
使用该辞典(104.1)来将关联于该序列(101)的内容元数据标准化成标准的内容元数据(104.1)。
4.权利要求3的方法,其中,内容元数据还包括以下至少一个:日期、时间、事件、位置、图像与用户的关系。
5.权利要求1的方法,还包括以下步骤:通过从包含以下各项的组中选择的技术而将内容元数据与序列相关联(102):分配元数据描述符,通过至少一个图像的内容分析来导出元数据描述符。
6.权利要求5的方法,其中,内容分析是从包含以下各项的组中选出的:文本的光学字符识别,图像场景识别,以及图像对象识别。
7.权利要求5的图像,其中,提供步骤还包括首先执行以下步骤:
将所定位的音频伴奏编译(106)到与该序列相关联的播放列表中;以及
将从经过编译的播放列表中做出的任何选择包含在所定位的音频伴奏中。
8.权利要求7的方法,还包括以下步骤:
将序列以及为其定位的音频伴奏保留在短期持久性存储器103中;以及
在所述提供步骤之前,检索保留的序列以及为其定位的音频伴奏。
9.权利要求8的方法,其中,内容元数据还包括以下至少一个:用户数据、日期、时间、事件、位置、图像与用户的关系、图像中的个人姓名、图像中的宠物名称、图像标题、季节、温度、纬度、经度、大小、身体部位、颜色。
10.权利要求9的方法,还包括以下步骤:
提供标准内容元数据及其同义词的辞典(104.1);以及
使用该辞典(104.1)来将关联于序列(101)的内容元数据标准化成标准的内容元数据(104.1)。
11.权利要求10的方法,其中:
所述定位步骤还包括导出匹配程度的步骤;以及
所述提供步骤还包括首先根据匹配程度来对所提供的音频伴奏执行从最低到最高的排序的步骤。
12.权利要求10的方法,其中,所述提供步骤还包括以下步骤:
将关联于所定位的音频伴奏的序列存储在数据库108中;以及
从数据库(108)中检索所存储的序列以及相关联的音频伴奏。
13.一种将音频伴奏与至少一个图像的序列相关联的设备(200),其中该图像具有与之同时呈现的内容,该设备(200)包括:
图像/元数据捕获/创建模块(201),用于捕获序列,以及捕获和创建用于描述至少一个图像的内容的元数据;
音频伴奏元数据搜索/关联模块(203),该模块使用相关联的元数据作为搜索准则,在音频伴奏数据库(104)中搜索匹配的音频伴奏,其中对于所述匹配,内容元数据包括关键短语且数据库用关键短语索引;
音频伴奏建议/播放模块(204),用于建议从搜索中得出的音频伴奏的播放列表;以及图像序列显示模块(202),用于在音频伴奏建议/播放模块(204)播放从搜索中得到的音频伴奏时同时显示该序列。
14.权利要求13的设备(200),还包括:
数据库(108);
其中,图像/元数据捕获/创建模块(201)和音频伴奏元数据搜索/关联模块(203)每一个被进一步配置成将序列、元数据和所定位的音频伴奏存储在数据库(108)中;以及其中音频伴奏建议/播放模块(204)和图像序列显示模块(202)每一个被进一步配置成从数据库(108)中检索序列以及相关联的元数据,以便同时对其进行显示和播放。
15.权利要求13的设备(200),其中,图像/元数据捕获/创建模块(201)被进一步配置成使用图像内容分析技术来创建元数据。
16.权利要求15的设备(200),其中,图像内容分析技术是从包含以下各项的组中选出的:文本的光学字符识别,图像场景识别,图像对象识别。
17.一种用于至少一个数字图像的序列的音频伴奏的系统(300),包括:
显示设备(301);
音频伴奏播放设备(302);以及
根据权利要求16的设备(200),其中该设备可操作地连接到显示设备(301)和音频播放设备(302),
其中该设备(200)接受至少一个图像的序列以及第一图像元数据(101),使用内容分析技术(102)来导出第二图像元数据,使用第一和第二元数据来定位恰当的音频伴奏,然后则执行以下操作之一:在显示(302)序列的时候播放(301)音频伴奏,或者向用户建议(302)结果的播放列表。
使用数字图像的元数据和内容特征来找到相关音频伴奏的\n系统和方法\n[0001] 本发明涉及的是使用数字图像序列的元数据来识别音频伴奏并与之关联,以及创建与所识别的音频相结合的序列,从而将其作为建议播放列表或是视听展示呈现给用户,其中所述音频伴奏包含了具有与图像元数据相类似的文本和元数据的音乐和声音。\n[0002] 越来越多的消费者系统将不同类型内容的存储和回放组合在了一起。由此,个人用于回放数字照片的系统通常将能在显示这些照片的同时播放音乐伴奏。由此产生的问题是:这种可能性为用户提出了额外的任务,那就是找到并选择恰当的音乐,以便为照片幻灯显示(数字图像序列)提供伴奏。由此需要一种用于自动播放(或建议)与特定数字图像序列的内容相匹配的音频伴奏的方法。\n[0003] 在一个实施例中,本发明的系统、设备和方法提供了一种通过使用数字图像(例如照片、相簿、家庭视频)的元数据来搜索音乐的方法,其中所述音乐包含了与这些照片相关联的歌曲文本。\n[0004] 为了实现该目的:\n[0005] (1)从一个或多个图像(的集合/序列)或是从图像元数据中得到文本标签,以及[0006] (2)这些文本标签或关键短语包含了至少一个关键字,并且被用于找到在音乐标题中、或是在与音乐相关联的歌曲文本的某些(显著)部分中、或是在音频的元数据中包含了这些关键短语的音频伴奏。\n[0007] 很多经典作品都具有为其音乐设置的文字,例如,“I′m AlwaysChasing Rainbows”是一首为Chopin’s Fantasie Impromptu设置的歌曲。此外,很多没有文字的音乐作品都适合作为用于幻灯显示的背景音乐,例如与海洋音乐相关联的海滨幻灯显示。除了音乐之外,音轨同样可以作为音频伴奏而被提供。后面的这些音频伴奏必须具有用于描述其内容的相关元数据。\n[0008] 图1描述的是根据本发明的方法的功能流程图;\n[0009] 图2描述的是根据本发明而将音乐与歌曲相关联的设备;以及\n[0010] 图3描述的是根据本发明的系统。\n[0011] 本领域普通技术人员应该理解,提供以下描述是为了进行例证,而不是加以限制。\n技术人员应该理解的是,在本发明的实质和所附权利要求的范围以内存在着多种变型。对已知功能和操作来说,与之相关的不必要细节可以从当前描述中被省略,以免与本发明相混淆。\n[0012] 在一个优选实施例中,用户提供的数字图像内容和特性被用于导出文本标签(图像元数据),这些文本标签可以是包含了从用户指定的图像名/标签中导出的至少一个关键字的关键短语,或者是从图像的文本注释中得出的关键短语。在一个优选实施例中,通过对文本内容使用光学字符识别(OCR)、对场景使用图像场景识别以及对对象(包括人和动物)使用图像对象识别,识别图像序列的内容。用户提供的图像特性被当作图像元数据对待,并且可以包括如下项目,例如特定于用户的数据(例如种族划分、性别、年龄、职业)、图像的创建时间和创建地点的信息,这些项目将被转换成有意义的名称,或者转换成包含标准化关键字并且描述了最有可能发生的事件和地点(例如生日、圣诞节、纽约、巴黎、暑假、......)的关键短语。\n[0013] 在一个实施例中,使用图像内容分析算法来对图像风景进行分类,并且提供了用于描述图像的元数据,而这些元数据则可以用作搜索项,以便搜索用关键短语索引的音频伴奏数据库。与该分类相关联的文字或标签同样被用于导出文本标签(图像元数据),然后,这些文本标签被用于找到相关的音频内容。例如,我们可以从其总体的白色中检测到冬天的场景。这种特性的识别被转换成某个文本元数据(标签),例如冬天、雪、白色。然后,这些元数据可以用于找到具有与冬天、下雪等等有关的歌曲文本和音频元数据的音频。\n[0014] 在一个优选实施例中,关于图像的元数据被合并。例如,时间信息可以转换成“圣诞节”,而场景分析信息产生(除了别的文字之外)“白色”。本发明在这个实例中找出“白色圣诞节”以及下雪的声音。\n[0015] 在一个优选实施例中,选定的音频伴奏会在时间上延续,以便覆盖图像序列,这是因为一般来说,并不希望此类序列为每一个组成图像都跳转另一个音频伴奏。由此,较为有利的是将可用于图像序列的元数据聚合成关于整个序列的描述。然后,通过使用聚合元数据,可以选择至少一个适合整个图像序列的音频伴奏。\n[0016] 在另一个替换实施例中,可以通过具有关于用户的可用信息(例如用于提供恰当程度的位置粒度的地理住宅位置,用于导出正确事件的区域/文化背景,用于确定假期的个人/家庭信息,等等),来改进元数据到有意义的文本标签的转换。\n[0017] 在一个优选实施例中,音效是作为与图像的元数据相关的音频伴奏提供的。例如,聚会的幻灯显示可以穿插玻璃杯的声音。关于人群的图片可以触发一个低语的声音。\n[0018] 现在参考图1,该图描述了根据本发明的方法的优选实施例的一个流程图实例。\n在步骤102,图像或图像序列101连同相关联的元数据101一起被输入,其中该元数据是为至少一个图像接收和创建的元数据中的至少一个,然后,图像和元数据保留在短期持久性存储器(persistentmemory)103中。该图像元数据既可以由用户输入,也可以由本发明导出,并且可以包括:日期、时间、事件、位置、图像与用户的关系或是其他描述符。本发明的系统、设备和方法可以包括用于将用户输入的任何元数据标准化成标准集合的术语及其同义词的辞典104.1,例如mom,mother,ma,mama,madre等等,所有这些指示的都是图像的同一“mother(母亲)”特性。同样,本发明的方法100可以包括用于创建白色冬天场景之类的图像元数据的图像分析能力。包括用户输入的元数据和系统创建的元数据的这两种类型元数据连同图像序列一起保存在持久性存储器103中,并且必须保存至少一种类型的元数据,以便本发明的系统300、设备200和方法100定位(locate)用于输入图像序列的相应音频伴奏。\n[0019] 提供了一个预先用标准化的音频伴奏元数据注释(索引)的音频伴奏数据库104。\n通过使用保留在短期持久性存储器103中的、标准化的被捕获/创建的图像元数据,在步骤105,搜索所提供的音乐数据库104,以寻求匹配音乐元数据。在步骤106,所有匹配的音乐元数据都被编译到一个播放列表中,与图像相关联,并且保留在持久性存储器103中。在一个优选实施例中,还会导出匹配程度,例如,冬天、白色图像以及用户提供的日期12/25将会导致与“White Christmas(白色圣诞节)”100%匹配,而与“Walking In A Winter Wonderland(在冬天仙境漫步)”则没那么匹配。在步骤107,从持久性存储器103中检索搜索结果,在显示图像的同时,最佳匹配是在有序的音乐伴奏建议列表中被播放或呈现的一个。在一个优选实施例中,图像和音频注释都保存在数据库108中,以便在以后进行检索、显示和播放。\n[0020] 现在参考图2,该图描述的是用于在显示图像时将音频伴奏与图像相关联以及用于向用户呈现音频伴奏播放列表的设备200。该设备包括图像元数据捕获/创建模块201,用于接收图像、图像序列以及描述图像和图像序列的元数据。该元数据包括日期、时间、季节、事件、与用户的关系、个人/宠物的名称,图像和图像序列的位置。用户输入的元数据由模块201捕获,以及由模块201通过图像分析创建,例如是海洋或湖泊、岛屿等等。一旦捕获了图像及其元数据,并且模块201创建了用于输入图像序列的元数据,那么它会保留在短期持久性存储器103中。然后,搜索/关联模块203根据元数据在数据库102中搜索适当的音频伴奏,并且建议/播放模块204进行建议播放列表或播放搜索得出的最相关音频伴奏中的至少一个。在一个优选实施例中,该结果被保存在已注释图像的数据库108中,以便在以后进行检索和播放。持久性存储器103是一个相对短期的存储器,其持续时间仅与用户希望由包括设备200的显示装置显示图像序列的时间是一样长的。\n[0021] 现在参考图3,该图描述的是包括图2设备200的系统300。该系统300接受数字图像内容,以及由此由用户101输入的元数据,通过使用图2的设备200借助辞典104.1来创建附加图像元数据(如有必要),以在其数据库104中定位恰当音频伴奏,并且将得到的与输入序列相关联的音频伴奏保存在短期持久性存储器103中。然后,该系统或者在显示\n302图像/序列的同时播放301音频伴奏,或者向用户建议302结果播放列表。这些结果以及图像还可以保存在注释的图像数据库108中,以便在以后进行检索和查看。\n[0022] 虽然在这里描述并且例证了本发明的优选实施例,但是本领域技术人员应该理解,这里描述的系统、设备和方法是例证性的,在没有脱离本发明的实际范围的情况下,众多的变更和修改都是可行的,并且可以使用等价物来替换其部件。此外,在不脱离本发明中心范围的情况下,众多的修改都可被实施,以使本发明的教导适应于特定的图像回放/声音/音效设置。由此,本发明并不局限于作为预期执行本发明的最佳模式而被公开的特定实施例,相反,本发明包含了落入所附权利要求范围以内的所有实施例。
法律信息
- 2020-10-30
未缴年费专利权终止
IPC(主分类): G11B 27/34
专利号: ZL 200680043552.4
申请日: 2006.11.15
授权公告日: 2011.12.21
- 2011-12-21
- 2009-01-21
- 2008-11-26
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |