著录项信息
专利名称 | 新闻视频编目方法及系统 |
申请号 | CN200810115787.0 | 申请日期 | 2008-06-27 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2009-12-30 | 公开/公告号 | CN101616264 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04N5/262 | IPC分类号 | H;0;4;N;5;/;2;6;2;;;G;0;6;K;9;/;0;0;;;G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 中国科学院自动化研究所 | 申请人地址 | 北京市海淀区中关村东路95号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中国科学院自动化研究所 | 当前权利人 | 中国科学院自动化研究所 |
发明人 | 陈众;张树武;曾智;杨武夷 |
代理机构 | 中科专利商标代理有限责任公司 | 代理人 | 梁爱荣 |
摘要
本发明一种新闻视频编目方法及系统,方法为基于新闻节目中字幕条、主持人、音频静音点信息对新闻视频自动编目。新闻视频流进行音视频分离,对音频数据进行片头音乐匹配,确定新闻节目在文件中的有效时间范围;在有效时间范围内确定音频静音点、主持人帧和字幕帧出现时间,并对其进行综合分析处理,确定新闻条目分割时间点;识别视频中字幕信息,与分割结果关联,作为编目的语意信息。系统包括:拆条模块和导出模块与新闻视频拆条结果数据库连接,浏览模块、播放模块和校正模块并联于用户端和新闻视频拆条结果数据库之间。本发明解决了新闻自动拆条,新闻条目自动语义信息标注的问题,实现新闻节目的自动编目,具有效率高、成本低的优点。
1.一种新闻视频编目方法,其特征在于,基于新闻节目中出现的字幕条、主持人和音频静音点信息对新闻视频进行自动编目,步骤如下:
步骤1:对新闻视频流进行音视频数据分离,获得音频数据和视频数据;
步骤2:对音频数据进行片头音乐匹配,确定新闻节目在文件中的有效时间范围;对新闻节目所在时间范围内音频数据进行静音点检测,获得音频静音点序列;对新闻节目所在时间范围内的视频数据进行关键帧抽取、主持人图像帧检测和文字帧检测,获得新闻节目所在时间范围内的静音点时间、主持人出现时间和文字信息出现时间;
步骤3:对音频静音点序列、主持人出现时间、文字信息出现时间和规则进行综合分析处理,将主持人帧和文字信息帧按照时间先后顺序,混合排成一个混合序列M;步骤32:利用混合序列M中的主持人和文字信息两类时间点,结合静音点序列V中的信息,获得新闻条目分割时间点;同时对视频中出现的文字信息进行识别,提取文字信息;
所述规则为规则1、规则2和规则3,所述新闻条目分割时间点采用规则1和规则2,或采用规则1和规则3,所述规则1:一个文字信息帧代表一条新闻,该条新闻的起始时间点在文字信息帧出现处或之前;所述规则2:在混合序列M中,如果当前文字信息帧前面相邻的是一个主持人关键帧,则认为当前文字信息帧和主持人帧属于同一条新闻,主持人属于这条新闻的前导播报镜头;取静音点序列V中在该主持人图像帧之前,且距其最近的一个静音点,作为当前这条新闻的起始时间;所述规则3:在混合序列M中,如果当前文字信息帧前面相邻的也是一个文字信息帧,这两个文字信息帧属于不同的新闻条目;取静音点序列V中在当前文字信息帧之前,且距其最近的一个静音点,作为当前这条新闻的起始时间;
步骤4:对新闻节目的拆条结果和识别出的文字信息进行关联,得到带有语义信息的新闻编目结果。
2.根据权利要求1所述的新闻视频编目方法,其特征在于:所述视频数据的处理步骤包括:
步骤S2B1:抽取音视频数据分离出的视频数据;
步骤S2B2:对视频数据抽取关键帧,用于检测主持人图像帧和文字信息图像帧;
步骤S2B3:对主持人图像帧出现的时间点进行基于局部特征匹配和主持人时间分布特征的检测,用于生成帮助确定一条新闻的起始时间的信息;
步骤S2B4:对关键帧集合检测,获得文字信息图像帧,用于生成新闻节目中包含的新闻条目的数目。
3.根据权利要求1所述的新闻视频编目方法,其特征在于,所述视频关键帧抽取:是在视频I帧的基础上抽取关键帧,用一个3帧大小的窗口在I帧序列中滑动,分别计算窗口内第一帧与第二帧中帧差目标区域的相似度和第二帧与第三帧中帧差目标区域的相似度,分别用sim(n,n+1)和sim(n+1,n+2)表示;相似度的计算采用直方图相交,设窗口内三个I帧中帧差目标区域的颜色直方图分别为Hn(k)、Hn+1(k)、Hn+2(k),计算相似度的公式为:
式中,N是颜色直方图包含的颜色区间的数目;根据事先设定的I帧相似度阈值T,进行如下比较判断:如果sim(n,n+1)<T,并且sim(n+1,n+2)>T,即第n个I帧与第n+1个I帧不相似,而第n+1个I帧与第n+2个I帧相似,那么抽取第n+1个I帧为关键帧;否则,第n+1个I帧不是关键帧;然后,将窗口向后滑动一帧,继续上述的相似度计算和比较判断;
当窗口在整个I帧序列中滑动过一遍之后,就抽取出了可能包含主持人或文字信息的关键帧集合。
4.根据权利要求2所述的新闻视频编目方法,其特征在于:
所述主持人图像帧检测是在抽取的关键帧集合的基础上进行,利用人脸检测对抽取的关键帧进行过滤,选择包含人脸的关键帧组成一个新的人脸关键帧集合;对人脸关键帧的某些区域提取视觉特征后,利用局部特征点检测算法在人脸关键帧的特定区域中检测局部特征点;以某些关键帧为基准,匹配其他关键帧中的局部特征点,找出能匹配到足够多局部特征点的多组关键帧作为候选的主持人关键帧组;在对两个人脸关键帧进行局部特征点匹配之前,利用颜色直方图求相似度计算这两个人脸关键帧是否可能相似,如果通过直方图匹配的方法认定两个关键帧不相似,不对它们进行局部特征点匹配;基于主持人关键帧在整个节目中的时间分布规律,如果一组关键帧在视频中的时间跨度大于某个阈值,则认为它们是主持人关键帧的候选组,否则认为它们不是主持人关键帧而将其舍弃;最后,综合候选的只包含一个主持人的关键帧组和包含两个主持人的关键帧组,判定哪些是主持人关键帧。
5.一种新闻视频编目系统,其特征在于,包括:
拆条模块包括:音视频数据分离单元的输出端与音视频特征融合单元的输入端连接;
音视频数据分离单元接收新闻视频流,用于将新闻视频流分离生成音频数据和视频数据并输出;所述音视频数据分离单元还包括:音频数据子单元,具有一片头音乐匹配部,具有一片头音乐匹配部,所述片头音乐匹配部与片头音乐匹配部并联连接;视频数据子单元,具有一主持人帧检测部、具有一标题条帧检测部、具有一标题文字识别部,所述主持人帧检测部、标题条帧检测部及标题文字识别部并联连接;音视频特征融合单元接收音频数据和视频数据,用于将音频数据和视频数据生成拆条结果并输出;音视频特征融合单元确定新闻条目分割时间点的步骤包括如下:步骤31:将主持人帧和文字信息帧按照时间先后顺序,混合排成一个混合序列M;步骤32:利用混合序列M中的主持人和文字信息两类时间点,结合静音点序列V中的信息,确定新闻分割的时间点;所述新闻分割时间点采用规则1和规则
2,或采用规则1和规则3,其规则为:规则1:一个文字信息帧代表一条新闻,该条新闻的起始时间点在文字信息帧出现处或之前;规则2:在混合序列M中,如果当前文字信息帧前面相邻的是一个主持人关键帧,则认为当前文字信息帧和主持人帧属于同一条新闻,主持人属于这条新闻的前导播报镜头;取静音点序列V中在该主持人图像帧之前,且距其最近的一个静音点,作为当前这条新闻的起始时间;规则3:在混合序列M中,如果当前文字信息帧前面相邻的也是一个文字信息帧,这两个文字信息帧属于不同的新闻条目;取静音点序列V中在当前文字信息帧之前,且距其最近的一个静音点,作为当前这条新闻的起始时间;
拆条模块的输出端与新闻视频拆条结果数据库的输入端连接,用于输出音视频特征融合的拆条结果;
新闻视频拆条结果数据库输出端与导出模块的输入端连接,接收音视频特征融合的拆条结果,向导出模块的输入端输出新闻视频编目结果并导出到系统外的XML文件中,用于将这些XML文件装载到其他系统中,使其他系统获得新闻视频编目结果;
浏览模块、播放模块和校正模块并联于用户端和新闻视频拆条结果数据库之间;
浏览模块,接收用户指定的要求浏览的新闻条目的编号,接收新闻视频拆条结果数据库中指定新闻条目的编目信息;向用户输出指定新闻条目的编目信息,包括新闻条目的分割时间点、新闻标题、新闻内容描述信息;
播放模块,接收用户指定要求播放的新闻条目编号,接收新闻视频拆条结果数据库中该条新闻的文件路径和时间范围;向用户播放该条新闻的画面和声音内容;
校正模块,接收用户指定要求校正的新闻条目的编号,接收新闻视频拆条结果数据库中该条新闻现有的编目信息;向用户显示该条新闻现有的编目信息,向新闻视频拆条结果数据库输出校正后该条新闻的编目信息。
6.根据权利要求5新闻视频编目系统,其特征在于:所述浏览模块包括:文本标题浏览子单元和关键帧图像浏览子单元并联连接,用于以不同的形式将新闻编目的结果展示给使用者。
7.根据权利要求5新闻视频编目系统,其特征在于:所述校正模块模块包括:新闻条目拆分或合并子单元、新闻条目时间点信息校正子单元、新闻条目文本信息校正子单元并联连接,分别从不同角度对新闻自动编目过程中可能出现的问题进行校正。
新闻视频编目方法及系统\n技术领域\n[0001] 本发明属于视频结构分析领域,更确切的说,是涉及新闻视频结构化技术。\n背景技术\n[0002] 视频结构化,就是获得视频在拍摄时具有的镜头、场景等结构信息,利用这些结构化信息为视频建立一些索引,方便视频的管理和使用。可以采用手工方式将视频节目切分成内容上比较独立的多个视频段,并对这些视频段进行标注,供用户索引和使用。但是手工的方法要花费大量的时间和人力成本,效率低下。而且对视频进行人工标注存在主观不一致性,对同一段视频节目,不同的标注和使用人员具有不同的理解,这种差异性使标注信息不能客观反映视频的真实内容,给视频内容的管理带来一定的不便。\n[0003] 由于手工对视频进行结构化在操作上不太现实,利用自动化的方法来对视频进行处理。利用计算机的强大计算能力,对视频进行结构化处理,完成手工难以实现的工作。\n发明内容\n[0004] 本发明针对现有手工新闻编目方法效率低、成本高、受编目人员主观因素影响大的问题,为此,本发明提供一种新闻视频自动编目方法及系统。\n[0005] 为了达成所述目的,本发明的一方面,是提供一种新闻视频编目方法,其技术方案包括如下步骤:基于新闻节目中出现的字幕条、主持人、音频静音点信息对新闻视频进行自动编目,步骤如下:\n[0006] 步骤1:对新闻视频流进行音视频数据分离,获得音频数据和视频数据;步骤2:对音频数据进行片头音乐匹配,确定新闻节目在文件中的有效时间范围;对新闻节目所在时间范围内音频数据进行静音点检测,获得音频静音点序列;对新闻节目所在时间范围内视频数据进行关键帧抽取、主持人图像帧检测和文字帧检测,获得新闻节目所在时间范围内的静音点时间、主持人出现时间、文字出现时间;步骤3:对音频静音点序列、主持人出现时间和文字信息出现时间进行综合分析处理,获得新闻条目分割时间点;同时对视频中出现的文字信息进行识别,提取文字信息;步骤4:对新闻节目的拆条结果和识别出的文字信息进行关联,得到带有语义信息的新闻编目结果。\n[0007] 其中,视频数据的处理步骤包括:\n[0008] 步骤S2B1:抽取音视频数据分离出的视频数据;步骤S2B2:对视频数据抽取关键帧,用于检测主持人图像帧和文字信息图像帧;步骤S2B3:对主持人帧出现的时间点进行基于局部特征匹配和主持人时间分布特征的检测,用于生成帮助确定一条新闻的起始时间的信息;步骤S2B4:对关键帧集合检测,获得文字信息帧,用于生成新闻节目中包含的新闻条目的数目。\n[0009] 其中,新闻条目分割时间点的确定步骤包括如下:\n[0010] 步骤31:将主持人帧和文字信息帧按照时间先后顺序,混合排成一个混合序列M;\n步骤32:利用混合序列M中的主持人和文字信息两类时间点,结合静音点序列V中的信息,确定新闻分割的时间点。\n[0011] 其中,新闻分割时间点采用规则1和规则2,或采用规则1和规则3,其规则为:规则1:一个文字信息帧代表一条新闻,该条新闻的起始时间点在文字信息帧出现处或之前;\n规则2:在混合序列M中,如果当前文字信息帧前面相邻的是一个主持人关键帧,则认为当前文字信息帧和主持人帧属于同一条新闻,主持人属于这条新闻的前导播报镜头;取静音点序列V中在该主持人帧之前,且距其最近的一个静音点,作为当前这条新闻的起始时间;\n规则3:在混合序列M中,如果当前文字信息帧前面相邻的也是一个文字信息帧,这两个文字信息帧属于不同的新闻条目;取静音点序列V中在当前文字信息帧之前,且距其最近的一个静音点,作为当前这条新闻的起始时间。\n[0012] 其中,视频关键帧抽取:是在视频I帧的基础上抽取关键帧,用一个3帧大小的窗口在I帧序列中滑动,分别计算窗口内第一帧与第二帧中帧差目标区域的相似度和第二帧与第三帧中帧差目标区域的相似度,分别用sim(n,n+1)和sim(n+1,n+2)表示;相似度的计算采用直方图相交,设窗口内三个I帧中帧差目标区域的颜色直方图分别为Hn(k)、Hn+1(k)、Hn+2(k),计算相似度的公式为:\n[0013] \n[0014] \n[0015] 式中,N是颜色直方图包含的颜色区间的数目;根据事先设定的I帧相似度阈值T,进行如下比较判断:如果sim(n,n+1)<T,并且sim(n+1,n+2)>T,即第n个I帧与第n+1个I帧不相似,而第n+1个I帧与第n+2个I帧相似,那么抽取第n+1个I帧为关键帧;否则,第n+1个I帧不是关键帧;然后,将窗口向后滑动一帧,继续上述的相似度计算和比较判断;当窗口在整个I帧序列中滑动过一遍之后,就抽取出了可能包含主持人或文字信息的关键帧集合。\n[0016] 其中,主持人图像帧检测是在抽取的关键帧集合的基础上进行,利用人脸检测对抽取的关键帧进行过滤,选择包含人脸的关键帧组成一个新的人脸关键帧集合;对人脸关键帧的某些区域提取视觉特征后,利用局部特征点检测算法在人脸关键帧的特定区域中检测局部特征点;以某些关键帧为基准,匹配其他关键帧中的局部特征点,找出能匹配到足够多局部特征点的多组关键帧作为候选的主持人关键帧组;在对两个人脸关键帧进行局部特征点匹配之前,利用颜色直方图求相似度计算这两个人脸关键帧是否可能相似,如果通过直方图匹配的方法认定两个关键帧不相似,不对它们进行局部特征点匹配;基于主持人关键帧在整个节目中的时间分布规律,如果一组关键帧在视频中的时间跨度大于某个阈值,则认为它们是主持人关键帧的候选组,否则认为它们不是主持人关键帧而将其舍弃;最后,综合候选的只包含一个主持人的关键帧组和包含两个主持人的关键帧组,判定哪些是主持人关键帧。\n[0017] 为了达成所述目的,本发明的第二方面,是本发明提供一种新闻视频编目系统,包括:拆条模块的输出端与新闻视频拆条结果数据库的输入端连接,用于输出音视频特征融合的拆条结果;新闻视频拆条结果数据库输出端与导出模块的输入端连接,接收音视频特征融合的拆条结果,向导出模块的输入端输出新闻视频编目结果并导出到系统外的XML文件中,用于将这些XML文件装载到其他系统中,使其他系统获得新闻视频编目结果;浏览模块、播放模块和校正模块并联于用户端和新闻视频拆条结果数据库之间;浏览模块,接收用户指定的要求浏览的新闻条目的编号,接收新闻视频拆条结果数据库中指定新闻条目的编目信息;向用户输出指定新闻条目的编目信息,包括新闻条目的分割时间点、新闻标题、新闻内容描述信息;播放模块,接收用户指定要求播放的新闻条目编号,接收新闻视频拆条结果数据库中该条新闻的文件路径和时间范围;向用户播放该条新闻的画面和声音内容;校正模块,接收用户指定要求校正的新闻条目的编号,接收新闻视频拆条结果数据库中该条新闻现有的编目信息;向用户显示该条新闻现有的编目信息,向新闻视频拆条结果数据库输出校正后该条新闻的编目信息。\n[0018] 其中,拆条模块包括:音视频数据分离单元的输出端与音视频特征融合单元的输入端连接,其音视频数据分离单元接收新闻视频流,用于将新闻视频流分离生成音频数据和视频数据并输出;音视频特征融合单元接收音频数据和视频数据,用于将音频数据和视频数据生成拆条结果并输出。\n[0019] 其中,音视频数据分离单元还包括:\n[0020] 音频数据子单元,具有一片头音乐匹配部,具有一静音点检测部,所述片头音乐匹配部与静音点检测部并联连接;视频数据子单元,具有一主持人帧检测部、具有一标题条帧检测部、具有一标题文字识别部,所述主持人帧检测部、标题条帧检测部及标题文字识别部并联连接。\n[0021] 其中,浏览模块包括:文本标题浏览子单元和关键帧图像浏览子单元并联连接,用于以不同的形式将新闻编目的结果展示给使用者。\n[0022] 其中,校正模块包括:新闻条目拆分或合并子单元、新闻条目时间点信息校正子单元、新闻条目文本信息校正子单元并联连接,分别从不同角度对新闻自动编目过程中可能出现的问题进行校正。\n[0023] 本发明的有益效果:本发明采用了利用新闻节目中的静音点信息、主持人信息和文字信息对新闻节目进行自动编目的技术方案。解决了新闻自动拆条,新闻条目自动语义信息标注的问题。实现了新闻节目的自动编目,具有效率高、成本低的优点。同时本发明的方案中使用XML作为中间介质,实现编目系统与其他视频点播系统的数据交换和信息共享。\n附图说明\n[0024] 图1是本发明新闻编目方案流程图。\n[0025] 图2是本发明帧差计算目标区域图。\n[0026] 图3是本发明I帧序列中连续三帧组成一个窗口。\n[0027] 图4是本发明新闻编目系统结构图。\n[0028] 图5是本发明新闻编目系统界面图。\n具体实施方式\n[0029] 下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。\n[0030] 本发明提出了一种新闻视频自动编目方法,如图1所示,该方法对方法可以对新闻视频节目进行自动编目,并将新闻节目中的标题文字信息识别出来,作为新闻故事的语意信息。编目的方法主要通过对新闻视频中字幕条、主持人和音频静音点的出现进行识别来进行工作,共过对上述信息的综合分析,确定分割的时间点以及新闻标题的信息。新闻自动编目系统可以对视频文件进行编目、浏览、播放、校正、标注、编目结果数据导出等操作。\n系统利用XML文件作为中介,与已有系统实现数据交换。\n[0031] 1.新闻视频编目方法\n[0032] 编目过程分为音视频数据分离、片头音乐匹配、静音点检测、关键帧抽取、主持人帧检测、文字帧检、文字信息识别、综合音视频信息确定分割时间点、关联新闻条目与文本信息等步骤。\n[0033] (1)音视频数据分离:\n[0034] 本发明提出的编目方案要利用画面和声音两方面信息对新闻内容进行分析处理,所以在进行具体的编目计算之前,先要将视频文件中的音频数据和视频数据分别抽取出来,供后续的音频处理和视频处理过程使用。\n[0035] (2)片头音乐匹配:对音频数据进行片头音乐匹配,确定新闻节目在文件中的有效时间范围;对新闻节目所在时间范围内音频数据进行静音点检测,获得音频静音点序列;\n对新闻节目所在时间范围内视频数据进行关键帧抽取、主持人帧检测和文字帧检测,获得新闻节目所在时间范围内的静音点时间、主持人出现时间、文字出现时间。对音频静音点序列、主持人出现时间和文字信息出现时间进行综合分析处理,获得新闻条目分割时间点;同时对视频中出现的文字信息进行识别,提取文字信息;\n[0036] 所述音频数据的处理步骤包括:步骤S2A1:抽取音视频数据分离出的音频数据;\n步骤S2A2:对音频数据进行频域差分特征提取,获得音频特征与片头音乐模板特征进行匹配,找到新闻节目所在文件中新闻节目的起始时间,获得音频静音点序列;同时识别出新闻节目类型;步骤S2A3:对音频流进行离散采样,并分成多个短时音频帧,相邻的音频帧之间有一定重叠,用短时平均能量对音频数据进行静音点检测,找出可能的新闻条目分割时间点。\n[0037] 所述视频数据的处理步骤包括:\n[0038] 步骤S2B1:抽取音视频数据分离出的视频数据;步骤S2B2:对视频数据抽取关键帧,用于检测主持人图像帧和文字信息图像帧;步骤S2B3:对主持人帧出现的时间点进行基于局部特征匹配和主持人时间分布特征的检测,用于生成帮助确定一条新闻的起始时间的信息;步骤S2B4:对关键帧集合检测,获得文字信息帧,用于生成新闻节目中包含的新闻条目的数目。\n[0039] 新闻视频通常是通过录制电视节目中的新闻获得的,为了保证录制节目的完整性,一般会在新闻节目开始之前和结束之后各多录制一段时间的内容。在这种情况下,有效的新闻节目部分处于视频文件中某个不确定的位置。在对新闻视频进行编目之前,首先要确定新闻节目在文件中的时间范围,然后才能对该范围内的有效数据进行编目计算。\n[0040] 本发明提出的编目方法,使用了一些关于新闻节目的先验知识作为程序参数。使用先验知识可以简化编目方案,绕开一些全自动算法解决不好的难题,比如视频中文字信息定位问题,以达到实用的目的。不同类型的新闻,具有不同的时间和空间结构,所以对不同类型新闻编目时使用的程序参数也有所不同。因此,在对新闻视频进行编目计算之前,先要确定所处理的新闻节目的类型。\n[0041] 新闻节目开始播放时,都有一段片头音乐,并且不同新闻的片头音乐不同。基于这一特点,利用节目片头音乐匹配的方法,可以找到文件中新闻节目的起始时间,同时识别出新闻节目类型。\n[0042] 事先保存目前常见新闻的片头音乐作为模板,要确定一个文件包含的新闻节目的起始时间和类型时,就分别用这些模板去和文件中的音频数据进行匹配。使用音频频谱差分特征作为片头音乐匹配过程的特征向量。\n[0043] 两个音频片段之间的相似度,可以利用它们的特征向量计算出来:\n[0044] \n[0045] 其中,a1,a2表示两个音频片段;H1和H2分别表示从a1和a2中抽取出的N维特征向量;HD(·,·)表示求两个向量之间的海明距离(Hammingdistance)。\n[0046] 设已知类型新闻节目有P种,分别为News1,News2,......,NewsP,对应的片头音乐模板分别为HM1,HM2,......,HMP。用片头音乐模板HM1从待匹配的音频流起点开始,以帧为单位滑动,每滑动一步,进行一次匹配计算,如果HM1与所在位置的音频片段的相似度超过了一个事先定义的阈值,则认为找到了可能的片头音乐起始点,停止这次滑动匹配,并记录这个时间起点为ST1,相似度为Sim1。用所有片头音乐模板进行过滑动匹配后,得到相似度序列Sim1,Sim2,......,SimP,假设其中的最大值为Simk,则选择STk为新闻节目在文件中的起始时间,新闻类型为Newsk。\n[0047] 根据获得的新闻类型,可以知道新闻节目的时间长度,结合获得的起始时间,可以知道新闻节目在视频文件中的时间范围。\n[0048] (3)静音点检测:对音频静音点序列、主持人出现时间和文字信息出现时间进行综合分析处理,获得新闻条目分割时间点;同时对视频中出现的文字信息进行识别,提取文字信息;\n[0049] 在一条视频新闻中,大部分时间都有主持人的播报或者是新闻背景解说的声音。\n而在两条新闻交替的地方,会有播报或解说的停顿,在音频流中会存在一段非常明显的静音片段。这种静音片段可以帮助确定新闻条目之间的分割时间点。\n[0050] 使用短时平均能量法,对音频数据进行静音点检测,找出可能的新闻条目分割时间点。短时平均能量,指在一个短时音频帧内采样点信号所聚集的平均能量。用x表示一段连续的音频信号流,对x进行离散采样,并分成多个短时音频帧,相邻的音频帧之间有一定的重叠。则其中第m个音频帧的短时平均能量为:\n[0051] \n[0052] 其中,Em表示第m个音频帧的短时平均能量,N表示第m帧中包含的采样点的个数,x(n)表示第m帧中的第n个采样点的采样值。\n[0053] 如果一个短时音频帧的平均能量低于一个事先给定的阈值,则判断该短时帧为静音,否则为非静音。对于一个小的音频片段,如果其中被判断为静音的短时音频帧数目超过了一定比例,则把这个小的音频片段判断为静音片段。\n[0054] (4)视频关键帧抽取:\n[0055] 在对视频数据进行处理之前,先抽取关键帧,然后用关键帧代替整个视频数据,进行后续的计算处理。由于关键帧消除了冗余数据,可以大大减少后续的计算量,因此关键帧抽取是一个非常重要的步骤。\n[0056] 这里的关键帧抽取操作,主要是为后续的主持人帧检测和文字信息帧检测做准备。抽取的目标是可能包含主持人或文字信息的图像帧,而不必抽取出所有的反应不同画面内容的代表帧,这样抽取出来的关键帧,比通常意义上的关键帧要少得多,更有利于减小后续的计算量。\n[0057] 由于是对新闻节目进行上述特殊类型的关键帧抽取,因此可以利用一些关于新闻节目的先验知识,来改进传统的视频关键帧抽取方法。由于只需要抽取可能包含主持人或者文字信息的图像帧,所以在计算帧差时,可以只考虑最能反映主持人出现或文字信息出现的某个小区域的变化即可,而不必考虑整张视频帧图像的变化,这样可以减少参与帧差计算的像索点的数目,从而减小计算量。如图2所示,选择视频画面左下方的白色矩形区域作为计算帧差的目标区域,图2中(a)表示新闻现场,(b)表示文字信息,(c)表示男主持人,(d)表示女主持人。\n[0058] 从图中可以看出,当视频内容从不带文字信息的画面变换到带有文字信息的画面,或者从非主持人画面变换到主持人画面时,所选择的矩形小区域的视觉内容都会发生明显的变化。这符合计算帧差的目标区域可以反应文字信息出现或主持人出现的原则。视频在上述四种类型的画面之间转换时,帧差目标区域的颜色特征有显著的变化,所以选择该区域的颜色直方图,做为计算帧差的特征向量。\n[0059] 关键帧抽取在视频I帧(内部画面intra picture)的基础上进行。如图3所示,利用相邻帧图像内容的差距来判断关键帧的存在,图中用一个3帧大小的窗口在I帧序列中滑动,分别计算窗口内第一帧与第二帧中帧差目标区域的相似度和第二帧与第三帧中帧差目标区域的相似度,分别用sim(n,n+1)和sim(n+1,n+2)表示。相似度的计算采用直方图相交的方法,设窗口内三个I帧中帧差目标区域的颜色直方图分别为Hn(k),Hn+1(k),Hn+2(k),计算相似度的公式为:\n[0060] \n[0061] \n[0062] 其中,N是颜色直方图包含的颜色区间(bin)的数目。\n[0063] 根据事先设定的I帧相似度阈值T,进行如下比较判断:如果sim(n,n+1)<T,并且sim(n+1,n+2)>T,即第n个I帧与第n+1个I帧不相似,而第n+1个I帧与第n+2个I帧相似,那么抽取第n+1个I帧为关键帧;否则,第n+1个I帧不是关键帧。然后,将窗口向后滑动一帧,继续上述的相似度计算和比较判断。当窗口在整个I帧序列中滑动过一遍之后,就抽取出了可能包含主持人或文字信息的关键帧集合,n=1,2,3,4,......。\n[0064] 这种方法并不能直接抽取出只包含主持人或文字信息的视频帧,但是可以得到它们的一个超集,并且这个超集中所包含的视频帧的数目,比视频文件包含的所有视频帧或I帧的数目要少得多。这可以大大减少接下来参与主持人帧检测和文字信息帧检测的图像帧的数目,从而减小计算量。\n[0065] (5)主持人帧检测:\n[0066] 主持人帧的出现通常意味着一条新闻的开始,因此通过检测主持人帧出现的时间点可以确定一条新闻的起始时间。\n[0067] 本发明使用基于人脸检测和局部特征点匹配的方法进行主持人帧检测。该方法基于以下的假设:(1)新闻节目有一个或两个主持人,并且一个主持人在同一个新闻节目中会多次出现,第一次出现和最后一次出现之间会有较长的时间间隔;(2)主持人正脸面向摄像机,上半身出现在视频画面中;(3)同一个主持人在整个节目的不同时间点出现时,上半身的姿势动作只存在一些微小的变化;(4)在同一个新闻节目中,主持人的衣着不变,但背景可以有较大的变化。\n[0068] 主持人图像帧检测在抽取的关键帧集合的基础上进行。利用人脸检测对抽取的关键帧进行过滤,只选择包含人脸的关键帧,这些选出的关键帧组成一个新的人脸关键帧集合。对人脸关键帧的某些区域提取视觉特征后,利用局部特征点检测算法在人脸关键帧的特定区域中检测局部特征点。以某些关键帧为基准,匹配其他关键帧中的局部特征点,找出能匹配到足够多局部特征点的多组关键帧作为候选的主持人关键帧组。注意,在对两个人脸关键帧进行局部特征点匹配之前,可以先利用颜色直方图求相似度的方法计算这两个人脸关键帧是否可能相似,如果通过直方图匹配的方法认定两个关键帧不相似,就不必再对他们进行局部特征点匹配,从而减小了局部特征点检测和匹配的工作量。选择进行这样的判断是因为颜色直方图匹配的计算量要比局部特征点检测和匹配的计算量小得多。基于主持人关键帧在整个节目中的时间分布规律,如果一组关键帧在视频中的时间跨度大于某个阈值,就认为它们是主持人关键帧的候选组,否则认为它们不可能是主持人关键帧而将其舍弃。最后,综合候选的只包含一个主持人的关键帧组和包含两个主持人的关键帧组,判定哪些是主持人关键帧。\n[0069] (6)文字信息帧检测:\n[0070] 通过对大量新闻视频节目的观察发现,节目中每一条新闻的出现都伴随有相关的文字信息,这些文字信息对该条新闻的内容进行描述。由于文字信息与每条新闻有一一对应的关系,所以可以通过对文字信息的检测来确定新闻节目中包含的新闻条目的数目。\n[0071] 文字信息帧检测在抽取的关键帧集合的基础上进行。在一种确定类型的新闻节目中,描述新闻内容的文字信息在视频帧内的空间位置是固定的,可以利用这一先验知识,在视频帧中标记出文字信息显示区域,并将该区域作为检测文字信息帧时,计算两帧相似度的有效区域。也就是说两帧之间相似度只与这块标记的区域有关,而这块区域外的内容不参与相似度的计算,这个区域称为“文字信息目标区域”。\n[0072] 事先保存常见类型新闻节目的文字信息帧模板。检测文字信息帧时,根据片头音乐匹配确定的新闻节目类型,选择相应的文字信息帧模板。分别计算该模板的文字信息目标区域与每个关键帧的文字信息目标区域的相似度,选择所有相似度大于给定阈值的关键帧作为文字信息帧。\n[0073] 相似度的计算采用颜色直方图相交的方法,设Hmodel(k)为模板文字信息目标区域的颜色直方图,Hi(k)为第i个关键帧的文字信息目标区域的颜色直方图,则模板与第i个关键帧的相似度为:\n[0074] \n[0075] 其中,sim(model,i)为文字信息帧模板与第i个关键帧的相似度,N为颜色直方图中颜色区间(bin)的个数。\n[0076] 设T为事先给定的相似度阈值,如果sim(model,i)>T,则认为第i个关键帧是文字信息帧;否则,第i个关键帧不是文字信息帧,舍弃。\n[0077] (7)综合音视频信息确定分割时间点:\n[0078] 综合所述新闻条目分割时间点的确定包括如下步骤:步骤31:将主持人帧和文字信息帧按照时间先后顺序,混合排成一个混合序列M;步骤32:利用混合序列M中的主持人和文字信息两类时间点,结合静音点序列V中的信息,确定新闻分割的时间点。\n[0079] 经过前面的处理,已经获得了一个新闻节目中的音频静音时间点序列、主持人出现时间点序列和文字信息出现时间点序列。综合这三个时间点序列的信息,可以确定新闻节目中包含新闻条目的数目,以及每个新闻条目在整个文件中的起始时间。\n[0080] 一条新闻必定伴随着一个描述其内容的文字信息,这是我们对新闻节目进行分割的基本依据。所以,检测出来的一个文字信息帧,就确定了一条新闻的存在。主持人出现时间点和音频静音点,辅助确定每一条新闻的具体起始时间。\n[0081] 将主持人帧和文字信息帧按照时间先后顺序,混合排成一个序列,并将其称作序列M。将(3)检测到的静音点序列称为V。利用序列M中的主持人和文字信息两类时间点,结合静音点序列V中的信息,确定新闻分割的时间点,具体过程基于以下规则:\n[0082] 规则1 一个文字信息帧代表一条新闻,该条新闻的起始时间点在文字信息帧出现处或之前。\n[0083] 规则2 在序列M中,如果当前文字信息帧前面相邻的是一个主持人关键帧,那么认为当前文字信息帧和主持人帧属于同一条新闻,主持人属于这条新闻的前导播报镜头。\n取序列V中在该主持人帧之前,且距其最近的一个静音点,作为当前这条新闻的起始时间。\n[0084] 规则3 在序列M中,如果当前文字信息帧前面相邻的也是一个文字信息帧,这两个文字信息帧属于不同的新闻条目。取序列V中在当前文字信息帧之前,且距其最近的一个静音点,作为当前这条新闻的起始时间。所述新闻分割时间点采用规则1和规则2,或采用规则1和规则3。\n[0085] (8)文字信息识别\n[0086] 新闻视频中的文字信包含了丰富的语义内容,是对相应新闻条目内容的描述。可以将这些文字信息从视频中抽取出来,作为新闻编目结果的一部分。\n[0087] (9)关联新闻条目与文字信息:\n[0088] 文字信息帧的OCR结果不但包含所识别的文字信息,还包含文字信息帧出现的时间位置。利用这个时间标签可以将文字信息的识别结果与它所描述的新闻条目关联起来,得到带有文字描述信息的新闻编目结果。\n[0089] 2.编目系统功能模块设计\n[0090] 本发明系统软硬件环境条件:本发明所述系统,是在普通微型计算机上开发和运行的,采用因特尔奔腾4处理器,Windows XP操作系统。开发语言使用C++和Java。开发工具使用VC6.0和Eclipse。数据库使用SQLServer2000。\n[0091] 本发明新闻编目系统结构如图4所示,新闻编目系统主要分为五个模块:拆条模块1、新闻视频拆条结果数据库2、导出模块3、浏览模块4、播放模块5、校正模块6和用户\n7。\n[0092] 拆条模块的输出端与新闻视频拆条结果数据库的输入端连接,用于输出音视频特征融合的拆条结果;\n[0093] 新闻视频拆条结果数据库输出端与导出模块的输入端连接,接收音视频特征融合的拆条结果,向导出模块的输入端输出新闻视频编目结果并导出到系统外的XML文件中,用于将这些XML文件装载到其他系统中,使其他系统获得新闻视频编目结果;\n[0094] 浏览模块、播放模块和校正模块并联于用户端和新闻视频拆条结果数据库之间;\n[0095] 浏览模块,接收用户指定的要求浏览的新闻条目的编号,接收新闻视频拆条结果数据库中指定新闻条目的编目信息;向用户输出指定新闻条目的编目信息,包括新闻条目的分割时间点、新闻标题、新闻内容描述信息;\n[0096] 播放模块,接收用户指定要求播放的新闻条目编号,接收新闻视频拆条结果数据库中该条新闻的文件路径和时间范围;向用户播放该条新闻的画面和声音内容;\n[0097] 校正模块,接收用户指定要求校正的新闻条目的编号,接收新闻视频拆条结果数据库中该条新闻现有的编目信息;向用户显示该条新闻现有的编目信息,向新闻视频拆条结果数据库输出校正后该条新闻的编目信息。\n[0098] (1)拆条模块1是系统的核心功能模块。从新闻视频流中提取出音频数据和视频数据,对音频数据进行片头音乐匹配和静音点检测获得音频特征信息,对视频数据进行主持人帧检测、标题条帧检测和标题文字识别获得视觉特征信息。根据一定的规则将音视频特征信息融合在一起,确定新闻条目的分割时间点。拆条结果主要包括新闻条目的起止时间点和新闻标题信息等,这些结果储存到新闻视频拆条结果数据库2中,支持将来的服务功能。\n[0099] 拆条模块1包括:音视频数据分离单元11和音视频特征融合单元12,音视频数据分离单元11输出端与音视频特征融合单元12输入端串联连接,其中:音视频数据分离单元\n11接收新闻视频流,用于将新闻视频流分离生成音频数据和视频数据并输出;音视频特征融合单元12接收音频数据和视频数据,用于将音频数据和视频数据生成拆条结果并输出。\n所述音视频数据分离单元11还包括:音频数据子单元1a,具有一片头音乐匹配部,具有一片头音乐匹配部,所述片头音乐匹配部与片头音乐匹配部并联连接;视频数据子单元1b,具有一主持人帧检测部、具有一标题条帧检测部、具有一标题文字识别部,所述主持人帧检测部、标题条帧检测部及标题文字识别部并联连接。\n[0100] 音视频数据分离单元11将视频流分离成音频数据和视频数据两部分;获得的音频数据用于片头音乐匹配和静音点检测,获得的视频数据用于主持人帧检测、文字信息帧检测和文字信息识别;综合分析模块将音视频信息进行融合,得到拆条结果新闻拆条结果。\n[0101] (2)浏览模块4提供了文本和图片两种浏览方式。通过文本方式可以快速阅览各个新闻条目的标题信息,了解新闻的大概内容;通过图片方式可以浏览新闻条目的关键帧图片,对新闻内容有直观的印象,就好像是报纸上的新闻插图一样。\n[0102] 文本标题浏览子单元和关键帧图像浏览子单元两个子功能块,这两块之间是并列关系,分别以不同的形式将新闻编目的结果展示给用户7的使用者。\n[0103] (3)播放模块5,利用系统自带的视频播放器对用户7指定的新闻条目进行回放,为用户7提供详细的新闻报道内容。\n[0104] (4)校正模块6,提供条目文本信息编辑和条目起止时间点编辑两种功能。文本信息编辑允许用户7对自动识别的条目标题进行修正,还可以为条目添加其它相关的文本信息。起止时间点编辑允许用户7对条目的起始时间和终止时间进行修改,还可以删除和添加条目,当自动拆条中有条目时间点不准确时,可以利用手工的方式去修正。\n[0105] 新闻条目拆分或合并子单元、新闻条目时间点信息校正子单元、新闻条目文本信息校正子单元三个子功能块,这三个子功能块之间是并列的关系,分别从不同角度对新闻自动编目过程中可能出现的问题进行校正。\n[0106] (5)编目结果导出模块3,将新闻视频拆条结果数据库2中的新闻视频编目结果导出到系统外的XML文件中,将这些XML文件装载到其他系统中,可以使其他系统获得新闻视频编目的结果。\n[0107] 编目结果导出功能,导出的编目结果保存到系统外部的XML文件中。\n[0108] 3.系统界面布局\n[0109] 系统界面如图5所示,界面左侧是视频新闻的文件列表,按照新闻节目所属的电视台类别进行组织。左侧上方是电视台目录树,下方是新闻节目文件列表,当在电视台目录树中选中某一个电视台节点时,新闻视频文件列表会同步更新为属于该电视台的新闻节目文件。每一个文件节点都可以展开,显示该文件包含的新闻节目名称。新闻节目节点进一步展开,显示该新闻节目编目后得到的多个新闻条目的标题信息。界面右侧是新闻条目关键帧显示面板,以图片的方式给出新闻条目的内容摘要,直观清晰。界面中部上方是视频播放器,可以播放在左右两侧文件列表和关键帧面板上选中的新闻片段,让用户了解新闻的详细内容。播放器下方是显示当前播放新闻条目信息的面板,用户可以在此阅读或修改与新闻条目相关的时间信息和语义信息。对新闻进行编目和编目结果导出通过文件菜单中的功能菜单项实现。\n[0110] 表1.新闻编目实验结果\n[0111] \n 新闻节目 实际新闻 检测出的 漏检 多检\n 条目数 新闻条目数 条目数 条目数\n 新闻30分-1 18 18 0 0\n 新闻30分-2 26 26 0 0\n 新闻联播-1 32 29 3 0\n 新闻联播-2 40 40 0 0\n 国际时讯 8 8 0 0\n 浙江新闻联播 18 17 1 0\n 夏视新闻 9 9 0 0\n 新疆新闻联播 17 13 4 0\n 遵义新闻联播 8 8 0 0\n 郑州新闻 14 14 0 0\n 总计 190 182 8 0
法律信息
- 2019-06-11
未缴年费专利权终止
IPC(主分类): H04N 5/262
专利号: ZL 200810115787.0
申请日: 2008.06.27
授权公告日: 2011.03.30
- 2011-03-30
- 2010-02-24
- 2009-12-30
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2007-09-05
|
2006-03-03
| | |
2
| | 暂无 |
2006-03-29
| | |
3
| |
2005-08-24
|
2005-01-07
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |