1. 一种对视频进行分段的方法,它包括:
提供包含一系列视频帧的视频内容(501)并观看所述视频;
在观看所述视频期间发送书签信号(503),以便选择在发送所述 书签信号时正显示的选定的帧;
识别所述选定的帧的典型特征(104)并且把与所述帧对应的信息 记录在存储媒体上;
识别包含所述选定的帧的视频的片段(504),所述片段具有片段 起点和片段终点,并且
至少存储所述片段的一部分(505);
其中存储从所述片段起点开始的预定义长度的视频(505),或所 述片段起点被确定为所述选定的帧之前的预定义长度的视频(504)。
2. 如权利要求1所述的方法,其特征在于,从利用所述帧的视 觉、音频或文本特性创建的帧签名中获取帧的典型特征(410)。
3. 如权利要求1所述的方法,其特征在于,所述帧的典型特征 (104)是其帧编号。
4. 如权利要求1所述的方法,其特征在于,所述帧的典型特征 (104)是其在视频中的时标。
5. 如权利要求1所述的方法,其特征在于,所述片段的起点和 终点是基于检测所述选定的帧前后的视频的音频部分、视觉部分或 抄本部分中信息的有意义变化(410)。
6. 如权利要求5所述的方法,其特征在于,所述经分析以检测 变化的信息是从由DCT系数(104)、颜色、边缘、形状、寂静、语音、 音乐、隐藏字幕、视频中的音频(420)以及它们的组合所构成的组中 选择的。
7. 如权利要求1所述的方法,其特征在于,所述片段被存储在 与所述视频相同的媒体上(505)。
8. 如权利要求1所述的方法,其特征在于,所述存储的片段(505) 包含EPG数据、片段中的帧、或者来自所述片段的抄本信息(104)以 及它们的组合中的至少一种。
9. 一种用于标识视频片段以供后来检索的系统,它包括:
书签设置器部件,配置成与可以显示包括一序列视频帧(501)的 视频内容的视频播放器一起工作;
所述书签设置器响应来自信号发射器的信号,所述信号发射器 被配置成向所述书签设置器部件发送书签信号,所述书签设置器被 配置成当接收到所述书签信号时标识正在显示的视频中选定的帧 (503);
所述书签设置器还被配置成当所述视频已经被划分成具有片段 起点和片段终点的片段时,标识选定的帧的典型特征(104),并且把 与所述典型特征对应的信息记录在存储媒体中,以及记录包含所述 选定的帧的片段的至少一部分(505)或者所述书签设置器具有可将所 述视频划分成所述片段的分段特征(504),所述书签设置器被配置成 将包含所述选定的帧的片段的至少一部分发送到作为与所述视频相 同媒体的存储媒体(505),且其中所述书签设置器被配置成记录从片 段起点开始的预定义长度的视频(505)。
10. 如权利要求9所述的系统,其特征在于,所述选定的帧的典 型特征是从利用所述帧的视觉特性、音频特性或文本特性创建的帧 签名中获得的(410)。
11. 如权利要求9所述的系统,其特征在于,所述帧的典型特征 (104)是其帧编号,所述书签设置器被配置成确定所述帧编号。
12. 如权利要求9所述的系统,其特征在于,所述帧的典型特征 (104)是其在所述视频中的时标,所述书签设置器被配置成确定所述 视频中的时标。
13. 如权利要求9所述的系统,其特征在于,所述书签设置器包 括分析引擎,该分析引擎被配置成检测所述视频的音频、视觉和抄 本部分中信息的有意义变化(410)来确定片段的起点和终点。
14. 如权利要求9所述的系统,其特征在于,所述分析引擎分析 从由DCT系数(104)、颜色、边缘、形状、寂静、语音、音乐、隐藏 字幕、视频中的音频内容(420)以及它们的组合所构成的组中选择的 信息。
本发明一般涉及访问存储的视频内容,更具体地说,涉及一种 用于在视频内容中插入书签来标识视频信号的有意义片段以方便以 后进行检索的方法和装置。\n用户常常获取以VHS格式存储的视频、DVD、磁盘、文件等等, 以便即时观看或以后观看。这些视频往往可能很长并且可能具有各 种各样的内容。例如,观众可能在单个录像带、硬盘驱动器或其它 存储媒体上记录数小时的内容,包括各种电视节目或个人活动。观 众常常难以返回到视频中特定的重要部分。通常,尤其是在观看视 频时,也不方便记录帧计数器数字或记录时间信息。\n用户往往采用让人失望的碰运气方法,以求返回到特别感兴趣 的片段。例如,观众可能记录或获取包含大量喜剧演员或花样滑冰 表演者的表演的视频,但是只对相对少数的表演者的表演感兴趣。 而且,观众可能在观看美式橄榄球赛或世界职业棒球锦标赛时记录 广播节目,并希望返回到比赛中五六个令人难忘的场面。\n目前用于定位感兴趣的特定片断的方法已经不适用,因此,需 要提供一种对视频中重要片断设置书签的改进装置和方法。\n发明概要\n一般来讲,根据本发明,提供一种用于对所存储的视频内容中 感兴趣的区域设置书签的方法、装置和系统。在观众观看视频内容 并找到感兴趣的区域时,他们可以对视频内容的特定片断设置书签, 然后就可以相对简单的方式返回到该片断。这可以通过如下操作来 实现:按下按钮,用鼠标点击或者以其它方式向用于标记视频中感 兴趣的特定位置的装置发送信号。然后,可以利用各种超直方图、 帧签名和切换检测方法、隐藏字幕信息、音频信息等等,通过分析 视频信号的视觉、音频和抄本部分来自动识别整个片断的边界。可 以就颜色、边缘和形状的改变分析视觉信息,以便根据面孔变化、 关键帧、视频文本等来确定个体的更改。可以分析诸如寂静、噪声、 讲话、音乐及其组合的各种音频特征来确定片段的开头和结尾。还 可以就词语、类别等来分析隐藏字幕信息。通过处理此信息以确定 视频中有意义的片段的边界,书签不是仅仅对应于视频的特定点, 而是对应于整个自动创建的内容片段。\n因此,根据本发明的书签方法、系统和装置不仅使用户能够方 便地返回到感兴趣的视频片段,而且用户还可以被引导到片段的开 头,并可任选地只观看感兴趣的特定片段,或者整个滚动或只依次 观看感兴趣的片段。\n例如,如果当情景喜剧的视频中特定说话者正在讲话时发送书 签信号,在传送书签信号时标识当前说话者,则可以通过确定该说 话者开始和结束讲话的时间来识别片段边界。这种信息对于某些类 型的内容会有用,比如识别电影的片段,但是对于其它一些内容可 能并非如此。直方图信息、如调色板信号的变化也可有助于识别片 段的变化。隐藏字幕和自然语言处理技术可以提供进一步的信息, 用以描述下面的一个主题,这也有助于根据主题、对话等来识别边 界。通过选择或组合由上述片段识别技术得出的证据,可以确定和 建立片段的边界。上述技术还可以结合对整个节目结构的分析来进 一步地识别片段。\n在本发明的一个实施例中,书签信号标识帧,片段是基于时间、 比如30秒或1分钟或者视频长度、比如所选帧前后的选定数量的帧。 或者,可以将片段设定为预定义长度,比如从片段开始起30秒或1 分钟。因此,如果书签信号被发送到长片段的结尾,只有该片段的 第一部分以及可能刚好具有书签信号的部分被存储。每个片段可以 包括EPG数据、帧或抄本信息或它们的组合。可以从远程位置比如 通过因特网或万维网查看片段的索引,并且可以通过搜索此类索引 来选择视频。\n在本发明的一个实施例中,在观看视频内容时正在进行的基础 上来检测新场景。当激活书签信号时,系统就查找该场景的结尾, 并且记录加书签的场景/将其编入索引或者将该场景单独存储。\n在本发明的一个实施例中,当观看视频内容的用户激活书签特 征时,记录各个帧的唯一特征。这样,如果用户拥有存储媒体中大 量的视频内容而且想返回到加书签的场景或片段,但是记不清电影、 电视节目或体育比赛的标识,该帧的特征则作为唯一的或相对唯一 的标识符被搜索,并且可以检索到该场景(或整个作品)。因此,观众 可以滚动查看一系列的视频书签,直到查找到所需场景,然后直接 转到该场景或者该作品的开头。用户甚至可以保存不仅视频、而且 音乐、音频和其它存储内容的最喜爱的加书签片段的个人列表,并 且可以访问从各种可通过因特网或网站访问的内容源获得的内容, 具体做法是向这些内容源发送帧标识符或片段标识符。\n根据本发明的书签可以备份到远程装置上,如PDA或其它计算 机化的存储装置。此类装置可以诸如通过分析EPG数据、帧信息、 抄本信息、比如通过进行关键字搜索或者其它视频特征来对书签进 行分类。事实上,根据本发明的系统和方法还可用来对各种类型的 电子内容加书签和分类,这些电子内容例如是音频书籍、音乐、广 播节目、文本文档、多媒体演示、照片或其它图像等中的片段。还 有一个优点是以不同级别来存储书签,使得可以解决某些保密和/或 家长指引问题。在本发明的某些实施例中,可以通过网页、移动通 信装置、PDA、手表和其他电子装置来访问书签。\n因此,个人可以存储EPG数据、文本数据或某些其它信息以及 书签,从而给出对视频更丰富的预测。这种文本信息可以是部分或 全部抄本、与梗概或演员有关的EPG数据、关键帧等。这种信息还 可用于描述片段和书签的特征。\n因此,本发明的目的是提供一种用于对视频和其它内容加书签 和检索的改进方法、系统和装置,它克服了现有方法、系统和装置 的缺点。\n附图简介\n为了更全面地描述本发明,下面参考附图进行说明,图中:\n图1说明根据本发明的实施例、用于将视频内容分段的视频分 析处理;\n图2A和2B是根据本发明的实施例、用于创建片段的视觉索引 的装置的框图;\n图3是说明根据本发明的实施例、从视频图像中选择帧信息的 示意图;\n图4是说明根据本发明的实施例的三级片段分析的视图;以及\n图5说明输入视频的处理流程。\n最佳实施例的详细说明\n观众常常希望对正在观看的视频片段设置书签,以供将来检索。 对视频设置书签可以更易于返回到感兴趣的特定片段。当用户观看 现场直播的视频节目或在磁带、磁盘、DVD、VHS录像带上或以其 它方式存储的视频内容时,可以按下按钮或以其它方式使信号发送 到与该视频内容以电的方式联系的装置来输入标记点。此标记点(或 帧的签名)可以记录在磁带的自由区(如控制区)中或上面记录了该视 频内容的媒体上,或者可以将磁带的特定点的时间或帧计数记录在 另外的存储媒体中。\n图5说明该处理流程。在步骤501,输入视频内容可以被划分(格 式化)为帧。然后在步骤502,对于每一帧,产生签名并将其存储。 在步骤503,如果用户选择了帧来设置书签,则该帧被识别并且具有 其帧位置和视频信息的签名被作为书签存储。然后在步骤504,识别 该书签周围的边界并且也可以存储它们的信息。在步骤505,可以根 据用户来存储片段标识、如片段边界或者视频内容。\n在本发明的一个实施例中,用户可以将书签存储在PDA、服务 器或其它存储装置中。这可以充当查找表。用户还可以将存储在例 如外部服务器上的书签或帧信息与视频内容的帧信息进行比较,从 而检验他们是否观看或获取过特定的视频内容。观众可以下载视频 内容,并在观看后删除该视频内容,而只保留书签,这样当想要再 观看时,则从外部源检索该视频内容。因此,可以使存储资源最大 化,并且可以利用集中内容存储源的效率。\n在本发明的一个实施例中,当观众点击视频内容时,当时正在 显示的帧被提取出来进行分析。签名、直方图、隐藏字幕或其它低 级的特征或这些特征的组合可以表示此帧。下文将给出一些实例。\n虽然根据本发明的系统可以设置成返回到激活书签信号的具体 点,但是在增强系统或应用中,可以对有意义的视频片段设置书签, 用户可以选择返回到有意义的片段的具体点或开头,而不是返回到 片段的中间或片段的结尾,因为用户可能在观看完并发觉感兴趣之 后才决定对一个片段设置书签。\n识别书签所对应的片段可以多种方式实现。例如,在本发明的 最佳实施例中,可以根据本发明分析整个视频内容或其大部分,并 将其拆分成片段。这样,当书签信号被激活时,就可以对信号激活 时正出现的片段(或此前的片段或者两者)设置书签。在本发明的另一 实施例中,直到书签信号被激活后才进行分析以确定片段的边界。 此信息(视频签名、磁带的开始和结束时间、帧计数等)可以存储在上 述标识的同一位置。\n在本发明的又一实施例中,标识诸如视频、音频、图像、文本 及其组合之类的内容项目的方法可以通过如下步骤完成:创建书签, 其中包含具有标识该内容项目的足够标识信息的内容项目的所选片 段,然后将标识该项目的片段保存在存储媒体、如服务供应商处的 存储媒体中。这样,用户可以在作出选择时在远程位置下载书签。 然后,用户可以使用书签来标识从中创建该书签的原内容项目。可 以根据个人简档创建书签下载。\nDCT帧签名\n当观众选择一帧时,可以从DCT(离散余弦变换)系数的组合推 导出一种类型的帧签名。为帧中取值相似的DCT块的每个分组推导 帧签名表示,即,根据该帧内的区域签名推导出帧签名。每个区域 签名是由块签名推导出来的,下一部分将予以说明。定性地讲,帧 签名包含有关视频帧中表示可识别对象的显著区域的信息。这样, 此帧的签名就可用于检索视频的这个部分。\n参考图3,可以按如下方式提取块、区域和帧签名。根据DC以 及AC系数的最高值,为视频帧302中的每个块301推导一个签名。 然后,比较具有相似签名的块301,并确定多组块301的大小和位置, 以便推导区域签名。\n块签名310可以是8比特长,其中3比特320专用于DC签名 而5比特330专用于AC值。签名310的DC部分320是通过确定DC 值在指定值范围(例如-2400至2400)内的位置推导的。此范围可以划 分成预选数量的区间。在本例中,采用8个区间(通过3比特来表示 8个值)。可以根据应用的类型,更改整个签名的大小以包含更多数 量的区间,从而获得更精细粒度的表示。每个区间被赋予预定义的 从DC值的范围到签名的DC部分320的映射。5比特330用于表示 AC值的内容。每个AC值都与阈值、例如200进行比较,如果此值 大于阈值,则AC签名中的相应比特被设置为1。图3中说明了一个 实例,其中仅有值370大于阈值200。\n如图3所示,5比特用于表示AC值的内容。每个AC值都与阈 值进行比较,如果此值大于阈值,则AC签名中的相应比特被设置为 1。\n在推导出每帧的块签名之后,确定取值相似的块签名的区域。 区域包括两个或两个以上共有相似的块签名的块。在此处理中,可 以采用区域增长法来将图像中各区域隔离。按照常规,区域增长法 利用像素颜色和邻域概念来检测各区域。在本发明的一个实施例中, 块签名被用作增长区域的基础。可以为每个区域赋予一个区域签名, 例如:RegionSignature(mblockSignature,regionSize,Rx,Ry),其中Rx 和Ry是区域中心的坐标。每个区域粗略地对应于图像中的一个对象。\n所选的帧可以由DCT块的最显著分组(区域)来表示。对于帧推 导出n字长的签名,其中n确定重要区域(由应用来定义)的数量以及 一个字包含预定数量的字节。每帧可以由许多显著区域来表示。在 本发明的一个实施例中,图像中区域的数量是受限的,只保留若干 最大的区域。因为一帧是由多个区域表示的,所有帧之间的相似度 可以通过根据它们的块签名、大小和位置选择相似的区域的数量来 调整。区域可以按照区域大小来排序,然后可以选择前n个区域签 名作为帧的表示:frame(regionSignature l,...,regionSignature n)。 应当指出,关键帧的这种表示是基于图像的视觉外观,而不是试图 描述图像的任何语义。\n帧搜索\n为了查找视频内容中的某个位置,帧比较程序将加书签的帧F″ 与帧列表中的所有帧F′进行比较。根据它们的大小来比较它们各自 的区域签名:\n\n可以为帧签名中具有相同质心的区域计算帧差。在本例中,考 虑对象的位置以及签名值。另一方面,也存在位置是不相关的且只 需要比较区域大小而不考虑区域的位置的情况。\n如果帧差为0,则可以使用匹配帧中的位置信息来检索视频内容 的该部分。\n其它帧签名类型\n可以利用帧中特征的组合创建签名,比如前一帧和/或后一帧之 间的最大绝对差(MAD)。帧的密度、帧所采用的比特率、帧是隔行 还是逐行的、帧是取自16:9格式还是4:3格式等等。可以任何组合 来使用此类型信息以标识帧,检索处理可以设计为类似于上文所采 用的那种。\n色彩直方图\n除采用上述签名之外,可以计算帧的色彩直方图,并利用它来 检索。色彩直方图可以由任何数量的区间(bin)构成。\n隐藏字幕\n还可以通过提取出表示该部分的关键字,利用隐藏字幕数据来 对该片段设置书签。\n组合\n还可以采用上述方法的任何组合来对帧或部分设置书签。\n定义片段\n可以由观众以手工方式对片段设置书签,通过观众点击视频内 容的开始点和结束点来完成。或者,可以采用诸如超直方图的技术 使书签设置自动进行。下文讨论用于确定帧的边界的自动技术。例 如,一个场景常常维持一定的调色板。场景的改变通常伴随着此调 色板的中断。当视频内容播放时,可以执行自动视频分析来提取直 方图。当观众点击视频内容时,会将该帧的色彩直方图与先前捕获 的帧进行比较来识别该帧的开头,然后执行同样的比较来查找该场 景的结尾。使用这种信息,就可以仅存储观众感兴趣的片段。还可 以利用此信息对整个视频内容进行更有意义的检索。例如,除直接 转到观众点击时的位置以外,还可以实际转到包含该帧的场景的开 头。\n实例\n观众正在观看《Wizard of Oz》电影的录像。当前的画面包含这 样几帧,其中Dorothy、锡人、胆小狮子和稻草人从罂粟田进入翡翠 城。例如当变色马经过时,该观众点击视频图像。在本发明的一个 实施例中,帧/场景分析一直是持续的。然后系统就可以提取所选择 的帧并生成例如DCT帧签名以及色彩直方图。分析程序搜索先前存 储的帧,直到发现一个不属于同一调色板的帧。这表示场景的开头。 程序继续分析视频内容,直到它借助于调色板另一显著变化查找到 该场景的结尾。如果用户已决定记录整个视频内容,被标记该起点 和终点。在本发明的另一个实施例中,只存储片段。在程序进行分 析的同时,存储个别帧的DCT帧信息。以后,如果观众查看加书签 的帧并决定检索该部分的视频内容,就把DCT帧信息与存储的信息 进行比较,直到找到匹配为止。然后利用此帧周围的标记点检索该 部分的视频内容。\n将视频内容分成片段可以采用如美国专利6137544和6125229 中讨论的分析技术来实现,其内容通过引用结合于此。\n将视频信号分成片段还可以利用分层概率系统来实现,该系统 也称为“贝叶斯引擎”或BE。这种系统可参见J.Pearl的“Probabilistic Reasoning in Intelligent Systems:Networks of Plausible Inference”, Morgan Kaufmann Publishers,Inc.San Mateo,California(1988)。这种 系统可以参照图9来理解。\n图4说明三个层次中的三层概率框架:低级410、中级420和高 级430。低级层410描述视频信号401的信号处理参数。这些可以包 括:视觉特征,比如颜色、边缘和形状;音频参数,比如平均能量、 带宽、音调、mel-频率对数倒频谱系数、线性预测编码系数以及过零 点;以及可从隐藏字幕的ASCII字符中采集的抄本。如果没有隐藏 字幕信息可用,则可以采用语音识别方法将音频转换成抄本字符。\n箭头指示了创建中级420特征的低级410特征的组合。中级420 特征与整个帧或帧集合相关,而低级410特征与像素或短时间间隔 相关。关键帧(场景的第一帧)、面孔和视频文本是中级视觉特征。寂 静、噪声、讲话、音乐及其组合是中级420特征。关键字和隐藏字 幕/抄本类别也属于中级420。\n高级特征可以描述通过跨不同模态的中级420特征的集成获得 的语义视频内容。\n此方法是极为适合的,因为概率框架是针对处理不确定信息而 设计的,它们适合于表示信息的集成。BE的概率集成采用模态内集 成或模态间集成。模态内集成指的是单个域内的特征集成。例如: 视频文本的颜色、边缘和形状信息的集成表示模态内集成,因为均 发生在视觉域中。中级音频类别与视觉类别面孔和视频文本的集成 则提供了模态间集成的实例。\n贝叶斯网络是其中节点对应于(随机)变量的定向不循环图形 (DAG)。弧描述链接的变量之间的直接因果关系。这些链接的强度是 由条件概率分布(cpd)给定的。更正式地说,假定N个变量的集合 A(_i,..._N)定义一个DAG。对于每个变量,存在A的变量的子集合, _i的父集合9_i,即DAG中_i的前趋,使得P(_i|9_i)=P(_i|_1,...,_i-1), 其中P(·|·)是cpd,严格为正。现在,利用如下链规则,给定联合 概率密度函数(pdf)P(_i,...,_N):\nP(_i,...,_N)=P(_N|_N-1,...,_1)x...xP(_2|_1)P(_1)。根据此公式,父 集合9_i具有如下特性:给定9_i,_i和{_1,...,_N}\N_i是条件独立的。\n在图4中,BE的流程图具有三层构成的DAG结构。在各层中, 每个元素对应于DAG中的一个节点。定向弧将给定层中的一个节点 与前一层的一个或多个节点连接。两组弧将三层的元素连接。对于 给定层和给定元素,按照先前所述的(概率密度函数)计算联合pdf。 更确切地说,对于与第l层相关的元素(节点)i(l),联合pdf为:\nP(l)(_(l)i(l),9(l-1),...,9(2))=P(_(l)i(l)|9(l))\nx{P(_(l-1)l|9(l-1)l)...P(_(l-1)N(l-1)|9(l-1)N(l-1))}...\nx{P21|921)...P(_2N2|9(2)N2)}, (1)\n其中对于每个元素_i(l),都存在一个父集合9i(l),给定l阶的父集合的 并集,即9(l)(df);i=1N(l)9i(l)。各阶的不同父集合之间可能存在重叠。\n图4的第三层(高级)中表示了BE执行的主题分段(和分类)。多 媒体内容的复杂性要求跨多个域的集成。最好采用音频、视觉和抄 本域中的数据的综合集合。\n在图4的BE结构中,对于三层中的每一层,每个节点和箭头都 与cpd相关。在低级层中,cpd是如上所述地由AE指定的。对于中 级层,生成20个隐藏字幕类别(例如):天气、国际、罪案、体育、 电影、时尚、科技股、音乐、车辆、战争、经济、能源、股票、暴 力冲突、财经、国家(事务)、生物技术、灾害、艺术以及政治。最好 是采用各个类别的知识树,它由关键字和类别的关联表构成。在统 计处理之后,系统利用类别投票直方图来执行类别化处理。如果隐 藏字幕文件中的词与知识库的关键字匹配,则相应的类别获得一个 选票。各个类别的概率由每个关键字的投票总数与隐藏字幕段落的 投票总数之比给定。\n根据本发明的系统可以执行分段处理,它将电视节目分成商业 广告与非商业广告两部分;又将非商业广告部分分类成基于两个高 级类别的片段:例如,财经新闻和脱口秀(由BE执行)。\n初始分段可以利用隐藏字幕数据来完成,从而将视频内容划分 成节目片段和商业广告片段。然后,分析节目片段的隐藏字幕,以 单箭头、双箭头和三箭头表示。双箭头指示说话人更换。系统标记 具有开始时间和结束时间的连续双箭头之间的文本,以便用它作为 基本隐藏字幕单元。本发明的系统可以利用这些单元作为分段的构 建块。为了确定片段的高级索引(例如它是财经新闻还是脱口秀),侦 察器会计算两个联合概率。其定义如下:\np-FIN-TOPIC=p-VTEXT*p-KWORDS*p-FACE*\np-AUDIO-FIN*p-CC-FIN*p-FACETEXT-FIN (2)\np-TALK-TOPIC=p-VTEXT*p-KWORDS*p-FACE*p-AUDIO-TALK*\np-CC-TALK*p-FACETEXT-TALK (3)\n财经新闻的音频概率p-AUDIO-FIN和脱口秀的音频概率p- AUDIO-TALK是由不同的各个音频类别概率的组合创建的。财经新 闻的隐藏字幕概率p-CC-FIN和脱口秀的隐藏字幕概率p-CC-TALK 被选作20个概率的列表中的最大概率。面孔和视频文本概率p- FACETEXT-FIN和p-FACETEXT-TALK是通过比较面孔和视频文本 概率p-FACE和p-TEXT获得的,p-FACE和p-TEXT确定每个单独 的隐藏字幕单元中面孔和文本出现的概率。一种启发式的用法是基 于以下事实:脱口秀的主体是面孔,而财经新闻则既有面孔,又有 文字。通过计算如下一对新概率p-FIN-TOPIC和p-TALK-TOPIC, 对每个隐藏字幕单元执行高级分段。最大值指示该片段的分类属于 财经新闻还是脱口秀。\n可以预处理视频信号,以便提取其它可用于识别片段边界的有 用信息。例如,可以将信号分成音频域、视觉域和抄本域,以便根 据视频片段生成按语义编索引的信息。可以分析这些域的内容,并 将分析进行综合以更准确地识别片段的边界。\n视频预处理可以通过分析引擎(AE)来实现,分析引擎也可以把 分析与视频预处理组合。AE可以提取例如MPEG-2输入,并提取隐 藏字幕(cc)信息。它还可以按照下文所述的方式执行音频和视觉分析 以提取其他特征。然后将此信息进行组合来识别片段边界。\n一种最佳AE是Philips品牌的TriMediaTM Triodec卡。这种卡具 有TM 1000处理器和8Mb的存储器。它可以采用托管方式(hosted mode)在具有WinNT操作系统的600MHz PIII计算机上运行。可以 将“C”代码下载到执行分析的TriMedia中。\nAE可以首先通过在一组画面(GOP)的连续I帧(中间帧)之间检测 显著差异时提取新的关键帧来执行镜头检测。它可以采用两个基于 DCT的实现来获得“帧差”直方图和宏块。可以利用单字节帧签名 来过滤掉看上去与先前提取的关键帧相似的单色关键帧或多个帧。 这种关键帧提取生成未压缩的图像和列表,后者提供了关键帧数量 和切换的概率。AE可以利用连续I帧之间的差把这个概率建立在阈 值以上的相对量上。然后系统可以传递关键帧以供视频文本检测。AE 可以利用基于边缘的方法在未压缩的图像上查找视频文本,可以就 是否有文本对每个关键帧进行标记。可以就是否存在某些面孔分析 这些关键帧。\n提取处理可以生成一个完全设置时标的节目抄本。可以使用时 标,以便使抄本数据与相关的视频内容对准。\n可以从视频信号的音频部分提取多个、例如20个低级音频参数, 并将其用于分段处理中的分析。这可利用例如PC中的.wav文件来实 现。然后可以将视频预处理的输出用于分段处理。\n下文中提出其它用于视频信号分段的方法和系统,在T.McGee 和N.Dimitrova的“剖析电视节目以识别和删除非故事片段”,Proc.of SPIE Conf.on Storage and Retrieval for Image and Video Databases,第 243-251页,San Jose,CA,1999年1月;N.Dimitrova、H.Elenbaas 和T.McGee的“PNRS-个人新闻检索系统”,SPIE Conference on Multimedia Storage and Archiving System IV,第2-10页,1999年9 月,Boston;以及A.Hauptmann和M.Smith的“用于视频分段的文 本、语音和图像:信息媒体项目”,AAAI Fall 1995 Symposium on Computational Models for Integrating Language and Vision 1995,以上 各项的整个公开通过引用结合于此。\n还可以采用下列技术来获得有助于识别片段边界的信息:\n切换检测:其中将两个连续的视频帧进行比较来识别突然的场 景变更(硬切换)或者软过渡(叠化、淡入和淡出)。在N.Dimitrova、T. McGee、H.Elenbaas的题为“视频关键帧提取和过滤:关键帧并非 对于每个都是关键帧”的发表文章中提供了切换检测的说明,见于Proc ACM Conf.on Knowledge and Information Management,第113-120 页,1997年,现将其整个公开通过引用结合于此。\n面孔检测:其中识别视频帧的一些区域,这些区域包含肤色并 且对应于椭圆状的形状。在Gang Wei和Ishwar K.Sethi的题为“用 于图像注释的面孔检测”的发表文章中提供了对面孔识别的说明, 见于Pattern Recognition Letters第20卷第11期,1999年11月,现 将其整个公开通过引用结合于此。\n文本检测:其中识别出现在视频帧中的文本,比如重迭或叠加 文本。在L.Agnihotri和N.Dimitrova的题为“视频片段中的文本检 测”的文章中提供文本检测的说明,见于Proceedings of IEEE Workshop on CBAIVL,Fort Collins,Colorado,1999年6月,连同IEEE Conference on Computer Vision and Pattern Recognition一起举行,现将其整个公 开通过引用结合于此。在本发明的一个最佳实施例中,一旦检测到 文本,即可利用现有技术中众所周知的光学字符识别(OCR)技术。\n运动估算/分段/检测:其中在视频序列中确定移动对象,并分析 移动对象的轨迹。为了确定对象在视频序列中的移动,最好采用众 所周知的操作,比如光流估算、运动补偿和运动分段。在Patrick Bouthemy和Francois Edouard的题为“对图像序列进行运动分段和 动态场景的定性分析”的发表文章中提供了对运动估算/分段/检测的 说明,见于International Journal of Computer Vision第10卷第2期, 第157-182页,1993年4月,现将其整个公开通过引用结合于此。\n摄像机运动:其中采用一组五个(5)全局摄像机参数,最好是两 个(2)平移参数和三个(3)旋转参数。然后将3-D摄像机运动分类为单 纯跟踪(水平运动)、提升(垂直运动)、移动摄像车(深度上的运动)、 摇摄(绕垂直全局轴旋转)、俯仰(绕水平轴旋转)以及滚动(绕z轴旋转) 或者以上运动的组合。这种信息可用于将视频镜头分类成例如:“静 态”、“缩放”和/或“摇景”,然后进一步确定导演拍摄该镜头的 意图。在R.Y.Tsai和T.S.Huang的题为“具有曲面的刚性物体的三 维运动参数的唯一性和估算”的发表文章中提供了摄像机运动检测 的说明,见于IEEE Transaction on PAMI,第6卷第1期第13-27页, 1994年,现将其整个公开通过引用结合于此。\n音频片段包括对电视节目的如下类型的分析:语音至文本的转 换、音频效果和事件检测、说话人识别、节目识别、音乐分类以及 基于说话人识别的对话检测。音频分段可以包括将音频信号划分成 语音和非语音部分。音频分段中的第一个步骤可以包括利用如带宽、 能量和音调之类的低级特征进行片段分类。此后,采用信道分离将 同时发生的音频分量彼此分开(比如音乐和语音),以便可以独立地分 析每一种分量。\n此后,以不同的方式处理电视节目的音频部分,如语音至文本 的转换、音频效果和事件检测以及说话人识别。在E.Wold和T.Blum 的题为“音频的基于内容的分类、搜索和检索”的文章中对现有技 术中众所周知的音频分段进行了概括说明,见于IEEE Multimedia第 27-36页,1996年秋,现将其整个公开通过引用结合于此。\n一旦识别了电视信号的音频部分的语音片段或将其从背景噪声 或音乐中分离,即可采用语音至文本的转换[现有技术中已知的技术, 参见例如P.Beyerlein、X.Aubert、R.Haeb-Umbach、D.Klakow、M. Ulrich、A.Wendemuth和P.Wilcox的题为“英语广播新闻的自动抄 录”的文章,DARPA Broadcast News Transcription and Understanding Workshop,VA,1998年2月8-11日,现将其整个公开通过引用结合 于此]。在没有隐藏字幕可用的情况中,语音至文本的转换尤其重要, 它可提供电视节目的音频部分的抄本。\n可以利用音频效果来检测事件(现有技术中已知的技术,参见例 如T.Blum、D.Keislar、J.Wheaton以及E.Wold的题为“具有基于 内容的检索功能的音频数据库”的文章,Intelligent Multimedia Information Retrieval,AAAI Press,Menlo Park,California,第113-135 页,1997,现将其整个公开通过引用结合于此)。可以通过识别与特 定事件相关的声音来检测事件的发生。例如,可以检测体育比赛中 解说员大喊“进球”,作为识别一个片段的重要部分。\n说话人识别包括分析音频信号中存在的语音的声音签名来确定 说话人的身份(现有技术中已知的技术,参见例如Nilesh V.Patel和 Ishwar K.Sethi的题为“利用说话人识别进行视频分类”的文章,IS&T SPIE Proceedings:Storage and Retrieval for Image and Video Database V,第218-225页,San Jose,CA,1997年2月,现将其整个公开通 过引用结合于此)。例如可以采用说话人识别来确定说话人变更的时 间,从而帮助识别片段的边界。\n节目识别包括分析音频/数据/可视信号的音频部分来识别电视节 目。这在推导片段边界时特别有用,因为可以将确定这些边界的标 准设置成随节目类型的不同而变化。\n音乐分类包括分析音频信号的非语音部分来确定音乐表现类型 (古典、摇滚、爵士乐等)。这是通过以下方式实现的:分析音频信号 的非语音部分的例如频率、音调、音色、声音和旋律,并将分析的 结果与特定类型的音乐的已知特征进行比较。音乐分类在现有技术 中是已知的,Eric D.Scheirer的题为“Towards Music Understanding Without Separation:Segmenting Music With Correlogram Comodulation”的文章中有概括说明,见于1999IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,New Paltz, NY,1999年10月17-20日。\n在对音频和视频信号分段之后,就可以对分段的音频和视频信 号的各个部分进行组合(集成)。\n可以采用如下非限定实例创建片段的索引。用户在观看预先准 备好的磁带(或文件、DVD、磁盘等统称为磁带)或在新磁带上进行记 录时,激活这些片段之一内的书签信号,就可以选择该片段。在观 看视频内容时,就可以预先创建或创建片段。可以标识场景的开头, 而如果书签激活信号被激活,则可以识别场景的结尾并且将该场景(片 段)编入索引。例如可以利用磁带的开头存储索引。或者,可以将片 段的标识存储在关联文件中。对于当前的实例,30秒的“空白”或 可盖写磁带是需要的。对于文件,用于视觉索引的选择区域可以在 该文件的任何位置出现,也可以由系统自动预留,或者由用户手工 选择。索引可以包括可视图像、音频、文本或以上这些的任何组合。 对于本实例,提供的是可视图像和文本。\n在归档处理中,在视频分析处理期间分析视频内容,并创建视 觉索引。在视频分析处理中,进行自动显著场景检测和关键帧选择。 显著场景检测可以是一个识别场景变更、即“切换”(视频切换检测 或分段检测)和识别静态场景(静态场景检测)的处理。对于每个场景, 提取特定的代表性的帧,称为关键帧。对源视频、如录像磁带的每 个关键帧执行关键帧过滤和选择处理,从而由选择性地选出的关键 帧创建视觉索引。虽然所引用的显然是源磁带,但是源视频也可以 来自文件、磁盘、DVD、其它存储装置或直接来自传输源(例如在记 录家庭录像的同时)。\n在为录像磁带创建索引时,一般在源磁带上存储索引。在为来 自视频CD、DVD或其它存储设备或广播流的MPEG 1、MPEG 2、 MPEG 4、Motion JPEG文件或任何其它视频文件创建视频索引时, 可以把索引存储在硬盘或其它存储媒体中。\n图1说明对具有先前记录的源视频的源磁带进行的视频归档处 理,这可以包括音频和/或文本,但是对于具有先前保存的可视信息(如 MPEG文件)的其它存储装置可以遵照类似的处理。在此处理中,根 据源视频创建视觉索引。对于用户打算记录的源磁带进行的第二处 理是在记录的同时创建视觉索引。\n图1说明对录像磁带(先前记录的源磁带)的第一处理的实例。在 步骤101,如果需要,通过重放/记录装置、如VCR将源视频重绕。 在步骤102,重放源视频。来自源视频的信号被电视机、VCR或其 它处理装置接收。在步骤103,处理装置中的媒体处理器或外部处理 器接收视频信号并将视频信号格式化成表示像素数据的帧(帧抓取)。\n在步骤104,主处理器将每个帧划分成块,并对这些块及其相关 数据进行变换来创建DCT(离散余弦变换)系数;执行显著场景检测和 关键帧选择;以数据结构的形式构建关键帧并将其存储在存储器、 磁盘或其它存储媒体中。在步骤105,将源磁带重绕到其开头,在步 骤106,设置源磁带来记录信息。在步骤107,将签名从存储器传送 到源磁带,创建视觉索引。然后可以重绕磁带来观看视觉索引。\n当用户想在记录的同时在磁带上创建视觉索引时,对上述处理 稍作更改。将步骤101和102替换为如图1的步骤112所示,步骤103 的帧抓取处理在记录视频(影片等)的同时进行。此外,如果磁带或文 件未一次完全记录,可以将部分创建的视频索引存储在磁带、文件 中等,或者可以保存在磁带存储器中,以供后来添加。\n图2A和2B中更具体地说明了步骤103和104。视频内容可以 模拟(连续数据)或数字(离散数据)形式来表示。本实例在数字域中操 作,因此采用数字形式来处理,可以包括模数转换器。因此,源视 频或视频信号是一系列的单个图像或视频帧,它们以足够高的速率 被显示(本例中为30帧/每秒),使得所显示的图像序列看上去为一个 连续的图片流。这些视频帧可以是未压缩的(NTSC或原始视频),或 者是诸如MPEG、MPEG 2、MPEG 4、Motion JPEG等格式的压缩数 据。\n利用如Intel.RTM.Smart Video Recorder III中的帧抓取技术,首 先将未压缩视频中的信息分段为媒体处理器202中的帧。虽然也可 以采用其它帧大小,但是本例中,帧代表一个电视、视频或其它可 视图像并且包括352×240像素。\n可以把这些帧分别拆分成块,在本例中,主处理器210中的块 为8×8像素(图2A)。采用这些块和流行的广播标准CCIR-601,宏 块创建器206(图2A)可以创建亮度块并可以将颜色信息取平均值来创 建色度块。亮度块和色度块构成宏块。在一个实例中,可以采用4:2:0, 但是本领域的技术人员可以容易地采用诸如4:11和4:2:2的其它格 式。在4:2:0的情况中,宏块具有六个块,四个亮度块Y1、Y2、Y3 和Y4;以及两个色度块Cr和Cb,宏块内的每个块为8×8像素。\n利用诸如Motion JPEG(联合照相专家组)和MPEG(活动图像专家 组)的压缩标准,视频信号还可以表示压缩图像。如果信号更替为 MPEG或其它压缩信号,如图2B所示,则由帧剖析器205利用帧或 比特流剖析技术将该MPEG信号拆分成帧。然后,将这些帧发送到 媒体处理器203中的熵解码器214以及发送到表指定器216。熵解码 器214利用表指定器216中的数据,采用例如霍夫曼解码或其它解 码技术将MPEG信号解码。\n接下来,将解码信号提供给去量化器218,它利用表指定器216 中的数据将解码信号去量化。虽然图示的操作是在媒体处理器203 中进行,但是这些步骤(步骤214-218)可以在媒体处理器203中进行, 也可以在主处理器211中进行,甚至可以根据所采用的装置而在另 一个外部装置中进行。\n本方法可以采用DCT(离散余弦变换)系数的比较。首先,在主 处理器210中逐个处理每个接收的帧以创建宏块。主处理器210利 用离散余弦变换器220处理每个包含空间信息的宏块,以便提取DCT 系数并创建例如DCT系数的六个8×8块。主处理器210还利用显 著场景处理器230进一步处理各个宏块。本发明中可以采用关键帧 过滤方法,通过过滤掉重复帧和其他选择类型的帧来减少保存在帧 存储器234中的关键帧的数量。关键帧过滤可以在显著场景检测之 后由主处理器210中的关键帧过滤器240来执行。然后将该信息输 出到索引存储器260。\n或者,如果系统的编码功能(例如在媒体处理器中)允许在不同处 理阶段访问,则可以将DCT系数直接传递到主处理器。在所有这些 方法中,可以几乎实时的方式执行处理。\n在图1的步骤104中,主处理器210可以是例如 芯片或其它多处理器、TrimediaTM芯片或任何其它多媒体处 理器;计算机;增强型VCR、记录/重放装置或电视机;或者任何其 它处理器,它执行显著场景检测、关键帧选择以及构建数据结构并 将其存储在索引存储器中,比如硬盘、文件、磁带、DVD或其它存 储媒体。\n视频检索\n只要录像磁带或文件有视觉索引,用户就可能希望访问视觉索 引。视频检索处理以可读形式将视觉索引显示给用户。用户可以浏 览视觉索引并且快速转到源磁带或MPEG文件中选定的点。\n如果需要,则通过例如VCR或重放装置将源视频重绕到视觉索 引的位置,在一个实例中,重绕到磁带的开头。如果源视频在MPEG 文件或盘上,可以将指针指向存储位置的开头,而不需要重绕。同 样地,可以适当地将其它存储装置设置到视觉索引的开头。\n视觉索引可以由VCR头、计算机或其它硬件装置从源视频中读 取,并保存到索引存储器中,该索引存储器可以是任何类型的存储 装置,甚至可以是pda、掌上型计算机、蜂窝电话或其它无线存储装 置。例如VCR中的处理器可以从源视频的索引存储器中检索出关键 帧。可以对检索出的关键帧进行处理,以将其大小减小到例如120× 80像素,当然也可以容易地自动或由用户手工选择其它帧大小。\n接下来,将处理后的帧传送到主处理器,后者将处理后的关键 帧写入显示存储器并将其显示在用户界面、如计算机显示器、电视 屏幕等上。\n一旦读入视频索引,就可以使源视频停止。视频索引系统或软 件允许关键帧显示在显示器上,如计算机监视器或电视机屏幕。如 果用户需要,可以将视觉索引打印出来。用户还可以从视觉索引中 选择特定的关键帧。如果用户要观看该特定关键帧处的源视频,则 源媒体可以自动转到提取该关键帧之处的相应点,并由此播放该源。 或者,可以显示一个计数器,让用户可以快速转到整个源视频或者 从到所选关键帧的视觉索引处开始播放源视频。\n本发明的附加特征是使用户可以在任何点停止录像磁带的播 放,然后访问该录像磁带的视觉索引。在会话期间首次使用录像磁 带时,需要存储器或缓冲器来存储视觉索引。\n所示本发明是采用DCT系数;但是,可以改用代表值、如波长 系数或对图像的子区域进行运算的函数来提供该子区域的代表值。 这可用于显著场景检测以及关键帧过滤。\n虽然结合最佳实施例描述了本发明,但是应当理解,对于本领 域的技术人员,上述概括的原理之内的修改是显然的,本发明不限 于这些最佳实施例,而是意在涵盖此类修改。\n本发明可以采用和修改现有技术,如视频分段、视频剖析、语 音识别、字符识别以及对象查找,以便找出视频流中的提示,从而 在用户观看视频的同时对片段设置书签。或者,可以预先对视频设 置书签,用户可以在所需片段之间跳转。\n虽然参考附图对本发明的特定最佳实施例进行了说明,但是显 然本发明不限于那些具体的实施例,本领域的技术人员在不违背所 附权利要求书所限定的本发明的范围或精神的前提下可以实施各种 变更和修改。\n发明背景
法律信息
- 2019-03-08
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 02801852.4
申请日: 2002.03.19
授权公告日: 2008.08.06
- 2008-08-06
- 2004-10-20
- 2004-08-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |