著录项信息
专利名称 | 一种新闻视频字幕标注方法 |
申请号 | CN201210106534.3 | 申请日期 | 2012-04-12 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2012-11-14 | 公开/公告号 | CN102780856A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04N5/278 | IPC分类号 | H;0;4;N;5;/;2;7;8;;;G;0;6;T;7;/;0;0查看分类表>
|
申请人 | 天脉聚源(北京)传媒科技有限公司 | 申请人地址 | 上海市闸北区江场三路166号6号楼
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 上海天脉聚源文化传媒有限公司 | 当前权利人 | 上海天脉聚源文化传媒有限公司 |
发明人 | 刘赵杰 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
本发明公开了一种新闻视频字幕标注方法,首先采集新闻视频;对新闻视频进行解码,获得单帧的视频图像;从视频图像中提取候选字幕区域,进行新闻字幕区域定位;将新闻字幕区域与新闻模板库中的模板图像进行匹配,如果匹配,则按照模板图像标注格式对新闻字幕区域进行标注,如果不匹配,则对新闻字幕区域进行标注。采用了本发明的技术方案,能够提高视频中字幕标注的准确率,减少人工校对的时间,提高对新闻视频检索的效果。
1.一种新闻视频字幕标注方法,其特征在于,包括以下步骤:
A、采集新闻视频;
B、对所述新闻视频进行解码,获得单帧的视频图像;
C、从所述视频图像中提取候选字幕区域,进行新闻字幕区域定位;
D、将所述新闻字幕区域与新闻模板库中的模板图像进行匹配,如果匹配,则转至步骤E,如果不匹配,则转至步骤F;
E、按照模板图像标注格式对所述新闻字幕区域进行标注;
F、对所述新闻字幕区域进行标注。
2.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤F进一步还包括以下步骤:
将对所述新闻字幕区域的标注结果存储到新闻模板库中。
3.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤A中,采用电脑和电视卡的方式采集新闻视频。
4.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤C中从所述视频图像中提取候选字幕区域进一步包括以下步骤:
C1、对所述视频图像进行灰度变换,生成灰度图像;
C2、对所述灰度图像中的角点进行检测,删除背景中的角点;
C3、将剩下的角点进行合并,生成候选字幕区域。
5.根据权利要求4所述的一种新闻视频字幕标注方法,其特征在于,步骤C1中,按照下述公式进行灰度变换:
L(x,y)=0.3×R(x,y)+0.59×G(x,y)+0.11×B(x,y),其中,L(x,y)为像素点(x,y)的灰度值,R(x,y)、G(x,y)和B(x,y)为像素点(x,y)的RGB颜色中的红、绿和蓝分量。
6.根据权利要求4所述的一种新闻视频字幕标注方法,其特征在于,步骤C2中进一步包括以下步骤:
将所述灰度图像中孤立的角点滤除;
通过两帧相邻的视频图像的灰度图像进行比对,保留两帧相邻的视频图像的灰度图像的公共角点集合。
7.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤C中进行新闻字幕区域定位进一步包括以下步骤:
采用Sobel边缘对所述候选字幕区域进行垂直和水平方向的分解,确定所述候选字幕区域的垂直和水平方向。
8.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤C与步骤D中间还对所述新闻字幕区域进行验证,过滤掉不符合以下至少一个规则的字幕区域:
新闻视频中字幕的出现持续预定时间;
新闻视频中横向字幕出现在屏幕的下方区域;
字幕区域距离视频图像边界有预定的距离,字幕区域的上下左右边界距视频图像边界大于预定的像素点;
字幕框高度大于最小的字幕高度和小于最大的字幕高度;
视频图像中的标题字幕颜色与背景颜色有预设的对比度。
9.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤D中,提取所述新闻字幕区域中的文字和背景的颜色纹理特征,与新闻模板库中的模板图像的特征进行匹配。
10.根据权利要求1所述的一种新闻视频字幕标注方法,其特征在于,步骤E中,按照模板图像标注格式对所述新闻字幕区域进行标注的格式是分层次的,每一层次对应的信息是根据新闻的内容设定的,所述信息在视频的索引中以不同的权重出现。
一种新闻视频字幕标注方法\n技术领域\n[0001] 本发明涉及视频内容分析技术领域,尤其涉及一种新闻视频字幕标注方法。\n背景技术\n[0002] 随着信息时代的发展,视频资料的增多,日益呈现海量化的规模。视频内容同其它类型内容相比,具备更为生动的展现形式,承载了更为丰富的信息。为了实现对视频信息的高效访问,方便人们对其高效浏览和检索,视频处理和检索工具的研制成为当务之急。视频是集图像、声音、文字为一体的,其中视频中的字幕是视频高层语意内容的一个重要来源,如新闻的标题、内容提示信息、播出时的时间、旁白、节目后的致谢和工作人员名单等都包含了丰富的高层语意信息。提取视频中的字幕信息对大量视频的自动化管理,对利用成熟的文本检索技术进行视频检索具有重要的意义。\n[0003] 新闻视频作为视频数据中最具有代表性的媒体之一,广泛地受到人们的关注。而随着新闻视频数据的大量而快速地增加,导致了人们迫切需要一个快速、有效的基于内容的浏览和检索系统。在新闻视频中字幕具有明确、丰富的信息,有助于人对新闻视频语义内容的理解,是新闻视频语义信息获取的一条重要途径。同时还为新闻视频索引和视频分类提供了重要的信息,因此新闻视频字幕的自动检测具有重要意义。新闻视频中出现的字幕主要有下面几种形式:新闻的标题,重要信息提示字幕(新闻记者,新闻的地点和新闻中人物地点的提示),语音提示字幕和滚动的实时信息提示。这些字幕中滚动的实时信息提示字幕可能与新闻本身关系不大,其他都对新闻的标注有重要的作用。\n[0004] 传统的新闻视频中字幕的标注方法一般有两种,一是人工标注,就是通过采用简单的标注工具,通过标注人员对新闻视频反复浏览,找出新闻视频中出现的字幕信息,对其中的重要信息进行简单的标注。二是通过计算机程序自动对新闻视频字幕检测和识别,对新闻视频中的全部字幕进行统一处理,然后由人工对识别的结果进行校正。程序提取新闻视频字幕一般是通过对视频解码,通过对视频帧进行分析,比如采用基于连通域的方法,基于纹理的方法,基于边缘的方法或基于对字幕块特征建立分类器的方法对视频中的字幕进行定位,然后对定位的字幕块进行识别,最后识别的结果由人工进行确认形成统一格式的视频内容文本信息标注结果。\n[0005] 现有的字幕标注技术没有考虑到新闻视频的特点,新闻视频一般都有标准格式或自己固定的格式,而且这个格式一般也很长时间都不会更新。这些格式一般包括新闻标题的位置,字体颜色大小,背景的颜色等都固定,还有其中的提示字幕也固定位置或横竖方向等。通用的字幕标注技术中没有对这些类型加以区分,只要是新闻中出现的字幕,系统都会自动定位识别。让这些字幕的信息量的等级没有区分,从而降低了字幕所提供的信息量。这样的标注不利于人工后期的校对也不利于视频信息的检索,当然也更不利于读者对这些新闻视频的浏览。\n[0006] 人工标注的方式能保证信息的准确,但是人工标注的销量低下,成本高,而且所能提取的信息有限。同时随着数据量上飞速的增长,这种方式的让标注变成不可接受的方式。\n计算机程序自动定位识别然后辅助人工校对的方法,在视频字幕提取方法中,基于连通域能快速定位字幕区域,但对背景复杂度敏感;基于纹理算法实现简单,但是由于视频中相近纹理区域影响使得检测的准确率低;基于边缘的方法计算复杂度低,但很依赖视频字幕的背景;还有一些基于统计建立分类器的方法,太依赖于训练样本。现有的视频字幕处理方法中都存在各自的问题,很难找到一种方法能应对目前新闻视频的情况。而且现有的系统没有充分利用新闻视频的特点,仅从一个通用的视频字幕标注考虑,泛发型不好还有没有考虑到视频中字幕的不同类型。结果导致视频字幕自动定位和识别的效果很不理想,导致最后人工校对的工作量增加,从而增大了标注的成本。\n发明内容\n[0007] 本发明的目的在于提出一种新闻视频字幕标注方法,能够提高视频中字幕标注的准确率,减少人工校对的时间,提高对新闻视频检索的效果。\n[0008] 为达此目的,本发明采用以下技术方案:\n[0009] 一种新闻视频字幕标注方法,包括以下步骤:\n[0010] A、采集新闻视频;\n[0011] B、对所述新闻视频进行解码,获得单帧的视频图像;\n[0012] C、从所述视频图像中提取候选字幕区域,进行新闻字幕区域定位;\n[0013] D、将所述新闻字幕区域与新闻模板库中的模板图像进行匹配,如果匹配,则转至步骤E,如果不匹配,则转至步骤F;\n[0014] E、按照模板图像标注格式对所述新闻字幕区域进行标注;\n[0015] F、对所述新闻字幕区域进行标注。\n[0016] 步骤F进一步还包括以下步骤:\n[0017] 将对所述新闻字幕区域的标注结果存储到新闻模板库中。\n[0018] 步骤A中,采用电脑和电视卡的方式采集新闻视频。\n[0019] 步骤C中从所述视频图像中提取候选字幕区域进一步包括以下步骤:\n[0020] C1、对所述视频图像进行灰度变换,生成灰度图像;\n[0021] C2、对所述灰度图像中的角点进行检测,删除背景中的角点;\n[0022] C3、将剩下的角点进行合并,生成候选字幕区域。\n[0023] 步骤C1中,按照下述公式进行灰度变换:\n[0024] L(x,y)=0.3×R(x,y)+0.59×G(x,y)+0.11* B(x,y),其中,L(x,y)为像素点(x,y)的灰度值,R(x,y)、G(x,y)和B(x,y)为像素点(x,y)的RGB颜色中的红、绿和蓝分量。\n[0025] 步骤C2中进一步包括以下步骤:\n[0026] 将所述灰度图像中孤立的角点滤除;\n[0027] 通过两帧相邻的视频图像的灰度图像进行比对,保留两帧相邻的视频图像的灰度图像的公共角点集合。\n[0028] 步骤C中进行新闻字幕区域定位进一步包括以下步骤:\n[0029] 采用Sobel边缘对所述候选字幕区域进行垂直和水平方向的分解,确定所述候选字幕区域的垂直和水平方向。\n[0030] 步骤C与步骤D中间还对所述新闻字幕区域进行验证,过滤掉不符合以下至少一个规则的字幕区域: \n[0031] 新闻视频中字幕的出现持续预定时间;\n[0032] 新闻视频中横向字幕出现在屏幕的下方区域;\n[0033] 字幕区域距离视频图像边界有预定的距离,字幕区域的上下左右边界距视频图像边界大于预定的像素点;\n[0034] 字幕框高度大于最小的字幕高度和小于最大的字幕高度;\n[0035] 视频图像中的标题字幕颜色与背景颜色有预设的对比度。\n[0036] 步骤D中,提取所述新闻字幕区域中的文字和背景的颜色纹理特征,与新闻模板库中的模板图像的特征进行匹配。\n[0037] 步骤E中,按照模板图像标注格式对所述新闻字幕区域进行标注的格式是分层次的,每一层次对应的信息是根据新闻的内容设定的,所述信息在视频的索引中以不同的权重出现。\n[0038] 采用了本发明的技术方案,利用新闻视频固定的格式,通过字幕模板的方法和分层次的方法对新闻视频中的字幕进行标引,尽可能地挖掘新闻视频中的字幕信息,从而提高了视频中字幕标注的准确率,减少了人工校对的时间,提高了对新闻视频检索的效果。\n附图说明\n[0039] 图1是本发明具体实施方式中新闻视频字幕标注的流程图。\n具体实施方式\n[0040] 下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。\n[0041] 图1是本发明具体实施方式中新闻视频字幕标注的流程图。如图1所示,该新闻视频字幕标注的流程包括以下步骤:\n[0042] 步骤101、采集新闻视频。新闻视频的录制和采集阶段,对于电视节目,采用电脑加电视卡的方案,可以边采集边存储;采集阶段系统通过采集配置计划对视频流进行定向采集,然后对采集的视频数据进行视频内容分析。\n[0043] 步骤102、对新闻视频进行解码,获得单帧的视频图像。\n[0044] 步骤103、对每一帧视频图像进行灰度变换,生成灰度图像,按照下述公式进行灰度变换:\n[0045] L(x,y)=0.3×R(x,y)+0.59×G(x,y)+0.11* B(x,y),其中,L(x,y)为像素点(x,y)的灰度值,R(x,y)、G(x,y)和B(x,y)为像素点(x,y)的RGB颜色中的红、绿和蓝分量。\n[0046] 步骤104、对生成的灰度图像中的角点进行检测,删除背景中的角点。\n[0047] 由于视频图像中所有边界曲率足够高的点都会被判断成是角点,因此在视频图像的角点分布图中除了含有字幕区域的角点之外,还可能存在一些背景留下的角点。为了提高字幕区域检测的准确率,先将角点分布图中孤立的角点滤除,这样可以避免噪声积累,减少最后提取结果中的噪声。由于视频中同一字幕会接连出现在多个视频图像中并且位置通常不会发生变化,而视频图像的背景则变化相对较大,这样就会导致如果相邻的两个视频图像中含有相同的字幕,则这两幅视频图像的字符对应的角点的坐标位置不会发生变化,而背景像素留下的角点的坐标值会发生变化,这就可以通过寻找两个相邻视频图像的公共角点集合(这个集合是一个包含字幕角点的准最小集合,因为这个集合仍然含有一些固定不变的背景角点)过滤掉很大一部分背景像素留下的角点,从而大大降低了误检率。在对角点过滤算法进行实现时,为了提高匹配的速度,需要先对相邻两个视频图像角点集合中的每个角点按照x或者y坐标值的大小进行排序,然后再找出两个角点集合中x、y坐标值相同的角点。由于在字幕区的角点几乎是均匀分布的,且一般的字幕区域是矩形,所以孤立的角点可以删除。为了形成候选字幕区域,彼此水平或垂直接近的角点合并。为合并后的面积可能比实际的小,所以适当的扩张几次,最后确定相同的候选字幕区域。\n[0048] 步骤105、为了将提取的候选字幕区域进一步分解,采用Sobel边缘对候选字幕区域进行垂直和水平方向的分解,通过边缘区域的分解确定候选字幕区域的垂直和水平方向。\n[0049] 步骤106、对新闻字幕区域进行验证。经过垂直和水平分解后的结果,接下来每个区域扩展到它的外接矩形。此时候选字幕区域已经很接近真实的字幕框了。本步骤中主要利用一些新闻中字幕的特征有针对性的处理。新闻视频中的字幕出现具有特定的一些规律,可以通过这些规律,过滤掉不符合以下至少一个规则的字幕区域: [0050] 新闻视频中字幕的出现持续预定时间;\n[0051] 新闻视频中横向字幕出现在屏幕的下方区域;\n[0052] 字幕区域距离视频图像边界有预定的距离,字幕区域的上下左右边界距视频图像边界大于预定的像素点;\n[0053] 字幕框高度大于最小的字幕高度和小于最大的字幕高度;\n[0054] 视频图像中的标题字幕颜色与背景颜色有预设的对比度。\n[0055] 以上规则可以过滤很多过小,过大,或是垂直水平比率过小的非字幕框。但是误报依然存在,后续结合sobel特征减少误报。这里应该提到上述约束可以筛选出包含大量的水平边缘点,但很少有垂直边缘点,或包含大量的垂直边缘点,但很少有横向边缘点的候选字幕区域。最后,使用基于单字幕行的特征分析来减少误报警。\n[0056] 步骤107、提取新闻字幕区域中的文字和背景的颜色纹理特征,与新闻模板库中的模板图像的特征进行匹配,如果匹配,则转至步骤108,如果不匹配,则转至步骤109。\n[0057] 在本系统中模板库的建立主要有两个阶段,系统前期就是用人工的手段,主要对需要标注新闻视频的格式,通过人工选出每个节目中有代表的字幕信息图片作为模板图片,然后对该图片标上相应的格式。比如中央一套的新闻联播,相应的标注格式为标题块及其标题出现的区域,横向提示字幕信息,竖向提示字幕信息和说话内容字幕信息等。后期随系统的运行,模板的定位准确程度提高,仅仅需要人工对非模板内候选图片进行人工确认即可。根据需要处理新闻视频的量决定是否加入新的模板。为了减少人工的标注的工作量,系统目前只需标注模板图片中相应字幕出现的位置即可。\n[0058] 步骤108、按照模板图像标注格式对新闻字幕区域进行标注。就是按模板库中模板图片标注格式系统自动对该候选图片进行标注。该标注格式是层次的,每一层次对应的信息都是由人工根据新闻的内容设定的,比如节目内容字幕,新闻标题,重要信息提示字幕,说话内容字幕等。这些信息会在视频的索引中以不同的权重出现。同时由于模板信息,比如字幕的颜色,字幕的背景可能是固定,这些信息对字幕识别有很大帮助。有模板标注的字幕识别的性能远远好于非模板标注的字幕。\n[0059] 步骤109、对新闻字幕区域进行标注。这类图片主要有以下几种形式,一是新闻视频中不常规的字幕信息,比如可能是视频内容中的字幕;二是新的新闻节目,比如没有标注的新的新闻节目或改版的新闻节目。系统会根据字体的大小和横竖的方向信息对其中的字幕标注,字体大的字幕和竖向字幕在新闻视频中可能有更重要的作用。\n[0060] 步骤110、将步骤109对非模板的新闻字幕区域的标注结果存储到新闻模板库中,或者认定为一般字幕。\n[0061] 步骤111、系统会把定位和识别的结果导入到编辑系统,编辑系统利用丰富的候选结果和似然值信息,系统会突出显示识别得分低的位置。\n[0062] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
法律信息
- 2022-04-08
未缴年费专利权终止
IPC(主分类): H04N 5/278
专利号: ZL 201210106534.3
申请日: 2012.04.12
授权公告日: 2013.11.27
- 2015-01-14
专利权的转移
登记生效日: 2014.12.26
专利权人由天脉聚源(北京)传媒科技有限公司变更为上海天脉聚源文化传媒有限公司
地址由100007 北京市东城区安定门东大街28号雍和大厦E座808室变更为200436 上海市闸北区江场三路166号6号楼
- 2013-11-27
- 2012-12-26
实质审查的生效
IPC(主分类): H04N 5/278
专利申请号: 201210106534.3
申请日: 2012.04.12
- 2012-11-14
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |