著录项信息
专利名称 | 视频字幕内容分析系统 |
申请号 | CN200610140494.9 | 申请日期 | 2006-10-10 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2007-08-22 | 公开/公告号 | CN101021903 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/32 | IPC分类号 | G;0;6;K;9;/;3;2;;;G;0;6;K;9;/;7;2查看分类表>
|
申请人 | 鲍东山 | 申请人地址 | 北京市海淀区中关村东路1号院清华科技园8号楼科技大厦A座16层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京新岸线网络技术有限公司 | 当前权利人 | 北京新岸线网络技术有限公司 |
发明人 | 张中鸿;苏磊;鲍东山 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
本发明提供一个描述视频文字信息的视频字幕分析系统。该系统包括字幕分析任务调度模块、视频播放模块、复杂背景去除模块、字幕自动检测定位模块、字幕自适应分割模块、视频字幕内容描述模块、文件上传模块和用户界面。字幕分析任务调度模块提供视频字幕分析接口;视频播放模块提供视频播放功能;复杂背景去除模块完成复杂背景预处理;字幕自动检测定位模块完成字幕检测定位和提取;字幕自适应分割模块完成字符分割处理;视频字幕内容描述模块形成字幕元数据描述文件;文件上传模块实现将特征文件上传至字幕特征服务器;用户界面显示字幕信息及系统信息,包括视频播放界面、字幕帧信息界面、字幕信息界面、任务调度信息界面和控制单元。
1.一种视频字幕内容分析系统,包括:
一个字幕分析任务调度模块,主要提供与视频分析调度服务器交互的接口和提供本地视频文件字幕分析的接口;
一个视频播放模块,主要提供视频文件播放和实时视频流播放功能;
一个复杂背景去除模块,主要用来将视频图像复杂背景去除,以减少背景对字幕信息的干扰;
一个字幕自动检测定位模块,主要用来检测视频流中有无字幕信息同时准确定位字幕区域在整个视频中的位置并提取出来;
一个字幕自适应分割模块,主要对视频字幕区域中的字符进行自适应分割以形成单一字符,并对其进行相应的预处理,便于OCR识别;
一个视频字幕内容描述模块,主要将OCR识别出来的视频字幕文本信息通过XML文档的形式以形成基于内容的视频文本元数据描述;
一个文件上传模块,主要将用于描述视频文本元数据的XML文件上传至字幕特征FTP服务器;
一个用户界面,用来显示分析提取出来的视频字幕信息以及其他相关系统信息,其中它包括视频播放界面、字幕帧信息界面、字幕信息界面、任务调度信息界面。
2.如权利要求1所述的视频字幕内容分析系统,其特征在于:其中的字幕分析任务调度模块,主要提供与上层视频分析调度服务器交互的接口和本地视频文件字幕分析的接口。
3.如权利要求2所述的视频字幕内容分析系统,其特征在于:所述的字幕分析任务调度模块中与上层视频分析调度服务器的交互接口提供与上层视频分析调度服务器的连接、接收和分发上层视频分析调度服务器的任务指令,控制视频字幕分析流程,同时向上层服务器返回任务执行的状态信息。
4.如权利要求2所述的视频字幕内容分析系统,其特征在于:所述的字幕分析任务调度模块中与上层视频分析调度服务器的交互信息显示在用户界面的任务调度信息界面上。
5.如权利要求2所述的视频字幕内容分析系统,其特征在于:字幕分析任务调度模块中本地视频文件字幕分析接口提供本地视频文件的输入功能,并执行视频字幕分析任务。
6.如权利要求2所述的视频字幕内容分析系统,其特征在于:字幕分析任务调度模块中与本地视频文件字幕分析接口交互的信息显示在用户界面的任务调度信息界面上。
7.如权利要求6所述的视频字幕内容分析系统,其特征在于:本地视频文件字幕分析接口中文件的输入由用户界面控制单元文件输入键实现。
8.如权利要求1所述的视频字幕内容分析系统,其特征在于:视频字幕内容分析系统中的视频播放模块,主要提供对本地视频文件和网络实时视频流的播放功能。
9.如权利要求10所述的视频字幕内容分析系统,其特征在于:视频播放模块中本地视频文件播放显示在用户界面的视频播放界面。
10.如权利要求10所述的视频字幕内容分析系统,其特征在于:视频播放模块中网络视频流的实时播放显示在用户界面的视频播放界面。
11.如权利要求1所述的视频字幕内容分析系统,其特征在于:其中的复杂背景去除模块,通过对视频图像中复杂背景进行预处理,以减少背景对字幕信息的干扰,同时增强字幕区域的图像信息.
12.如权利要求1所述的视频字幕内容分析系统,其特征在于:其中的字幕自动检测定位模块,通过灰度变化,亮度信息边缘检测、水平和垂直形状投影、由粗到精的定位,并辅之以字幕文本区域预测、长宽比、前背景亮度对比等先验知识最终完成字幕文本的自动化探测定位和提取。
13.如权利要求1所述的视频字幕内容分析系统,其特征在于:其中的字幕自适应分割模块,通过对字幕区域动态局部阈值二值化,侯选区域增强、垂直投影区域探测完成单个字符的自适应分割。
14.如权利要求1所述的视频字幕内容分析系统,其特征在于:其中的字幕自适应分割模块,将分割得到单个字符通过OCR识别得到当前视频帧相关的文本信息。
15.如权利要求14所述的视频字幕内容分析系统,其特征在于:字幕自动检测定位模块,其中检测到字幕帧信息被显示在字幕帧信息界面上。
16.如权利要求15所述的视频字幕内容分析系统,其特征在于:字幕自适应分割模块,其中经过分割识别得到的每一字幕帧的文本信息及其相应的帧序号显示在字幕信息界面上。
17.如权利要求1所述的视频字幕内容分析系统,其特征在于:其中视频字幕内容描述模块,将OCR识别出来的视频文本信息通过XML文档格式以一种适于视频结构化描述的组织形式表述出来,将视频帧、场景帧和镜头帧信息与其相应的文本信息对应起来,形成基于内容的视频文本元数据描述。
18.如权利要求1所述的视频字幕内容分析系统,其特征在于:其中文件上传模块,主要提供将视频字幕内容描述模块形成的用于描述视频文本元数据的XML文件上传至字幕特征FTP服务器的功能。
技术领域\n本发明涉及基于内容的视频分析系统,特别是涉及基于字幕内容的视频分析系统。\n背景技术\n传统的基于文本的视频检索,首先人工对视频采用文本进行注解,然后用基于文本的数据库管理系统来进行视频检索。但是,随着数字图象及视频数据数量上的飞速增长,在文本数据领域得以成功应用的传统数据库技术如果一成不变的搬到图象、视频等多媒体领域来,其结果必然是低效的甚至无效的。\n基于内容的视觉信息检索,借助对视觉媒体从低层到高层进行处理、分析和理解的过程获取其内容并根据内容进行检索。它涉及到对图像和视频中的视觉信息进行有效的查询、索引、浏览、搜索和提取,而且这种工作是直接根据图像和视频的内容含义而展开和进行的。\n基于内容的视觉信息检索系统支持根据视觉内容进行检索。对视觉信息的访问不仅在概念层利用关键字进行(与在文字领域类似),而且在感知层利用对视觉内容的客观测量和合适的相似模型进行,见图1。在离线状态,不仅注解员可以通过一定的方法对数据库进行注解,而且系统也(自动地)对数据库图像或视频进行分析,提取特征,从而提供在线应用时所需的(多维)索引。用户不仅可以借助文字查询方法,也可以借助视觉浏览和视觉范例查询方法利用搜索引擎进行检索,返回的结果仍可以用可视化的手段显示给用户。由此可见,对原始数据的处理和分析是系统功能不可缺少的一部分。\n视频流中往往包含有字幕,如电视新闻字幕、VCD影碟字幕、视频景物中的街道路牌、商店名称、在体育视频节目中,运动员衬衫上的文字等等。这些字幕往往能够客观地描述所在视频段的高级语义特征,更符合于人类的视觉效果与思维活动的特性。因此视频中的字幕有助于人对视频语义内容的理解,是视频语义信息获取的一条重要途径。从视频中探测出来的字幕不仅仅可以用于视频内容的检索,而且对视频的分类与索引都具有非常重要的作用。\n发明内容\n本发明旨在提供一个视频字幕内容分析系统,对视频流中包含的字幕信息进行分析处理,自动提取出字幕文本信息并以此形成基于内容的视频文本特征元数据描述。\n本发明旨在提供一个视频字幕内容分析系统,自动化地对海量视频节目进行分类和管理,改变传统视频节目的手工存库/检索模式,减轻人们对海量视频数据进行人工注解关键字的劳动程度。\n本发明的其他优点、目的和特征将在随后的说明书的部分中提出并且一部分在那些在本领域中具有一般技术的人员对随后的内容进行验证后将变得明显或者可以从本发明的实践中了解.本发明的目的和其他的优点可以通过所写的说明书及其权利要求书和附图中的结构而被认识和获得.\n与本发明的一个示例性实施例一致,提供一个视频字幕内容分析系统,其功能结构图见图2所示,包括:字幕分析任务调度模块,主要提供与上层视频分析调度服务器交互的接口和提供本地视频文件字幕分析的接口;视频播放模块,主要提供本地视频文件和网络实时视频流的播放功能;复杂背景去除模块,通过对视频图像中复杂背景进行预处理,以减少背景对字幕信息的干扰,同时增强字幕区域的图像信息;字幕自动检测定位模块主要完成对视频流中的字幕进行快速检测定位和提取;字幕自适应分割模块主要对提取出来的字幕进行字符块分割和处理,以便于OCR识别,获取视频文本元数据;视频字幕内容描述模块主要实现将OCR识别出来的文本信息通过XML文档形成基于内容的视频文本元数据描述;文件上传模块主要将用于描述视频文本元数据的XML文件上传至字幕特征FTP服务器;用户界面,用来显示分析提取出来的视频字幕信息以及其他系统信息,其中它包括视频播放界面、字幕帧信息界面、字幕信息界面、任务调度信息界面和控制单元。\n系统提供基于上层视频分析任务调度服务器的视频字幕分析和本地视频文件字幕分析功能。\n在任务调度信息界面区域显示与上层视频分析任务调度服务器的交互信息,包括任务内容和状态信息、待分析视频信息以及与上层视频分析任务调度服务器端通信状态等相关信息。\n在任务调度信息界面区域显示本地视频字幕分析任务信息,包括任务内容信息、任务状态信息和待分析视频信息。\n系统能提供对网络实时视频码流和本地视频文件的解码功能,并能在视频播放界面上回放显示。\n系统提供将后台分析检测到的包含字幕信息的视频帧同步地显示在字幕帧界面区域的功能。在字幕视频帧界面中可以动态显示多幅字幕视频帧信息。\n系统提供将后台分析处理得到的当前字幕通过OCR识别出来的文本信息同步地显示在字幕信息界面区域的功能。在字幕信息界面中可以实时显示当前字幕视频帧的文本信息及其对应的时间位置或帧序号。\n系统提供视频字幕特征元数据描述功能,通过标准的XML格式以一种适于视频结构化描述的组织形式表述出来,将视频帧、场景帧和镜头帧信息与其相应的文本信息对应起来,形成基于内容的视频文本元数据描述。\n系统提供文件上传功能,将视频字幕内容描述模块形成的用于描述视频文本元数据的XML文件上传至字幕特征FTP服务器。\n用户界面提供的控制单元对整个字幕分析任务进行操纵,控制任务的开始和停止。\n用户界面提供文件输入功能,用来输入本地视频文件。\n应该理解,本发明的前面的一般描述和随后的详细描述都是示范性和解释性的,目的是提供所要求的发明的进一步解释。\n附图说明\n附图提供本发明的一种更深入的理解,是本申请的整体的一部分,根据本发明的具体实施用例,并与说明书一起用于解释本发明的原理.图中:\n图1:视觉信息检索系统的工作框图\n图2:视频字幕内容分析系统功能结构图\n图3:基于任务调度服务器的视频字幕分析流程图\n图4:本地视频文件字幕分析流程图\n具体实施方式\n视频字幕内容分析系统提供基于任务调度服务器的视频字幕分析和本地视频文件字幕分析两种方式。\n一.基于任务调度服务器的视频字幕分析\n基于任务调度服务器的视频字幕分析是由上层视频分析调度服务器触发分析任务。系统在与上层视频分析调度服务器通信连接成功以后,由服务器发出任务指令进行操纵。系统接收到分析任务指令后启动整个分析任务流程,包括视频流解码、复杂背景去除、字幕帧自动探测、字幕区域自动定位提取、字幕区域字符自适应分割、OCR识别、字幕特征元数据XML生成和通知上层调度服务器任务结束以及将XML文件上传至字幕特征FTP服务器,分析流程图如图3所示。\n系统提供支持大多数视频格式的解码功能,支持MPEG2、MPEG4、H.263等视频流格式的解码,将解码得到的视频数据提交给字幕自动检测定位模块和字幕自适应分割模块进行分析处理;并同时将解码得到的视频码流实时地显示在用户界面的视频播放界面区域。\n由于视频帧图像本身的低分辨率、光照条件的变化、噪声等因素所导致的视频文本所处背景的复杂性,对视频中文本区域的检测都会带来干扰,因此在对字幕区域检测之前,使用复杂背景去除模块对视频图像中复杂背景进行滤波预处理,同时增强字幕区域的图像信息,降低复杂背景对字幕区域检测的影响。\n字幕帧的自动检测和字幕区域自动定位提取由字幕自动检测定位模块完成。该模块首先将彩色视频图像进行灰度变化,通过亮度信息边缘检测、水平和垂直形状投影、由粗到精的定位,并辅之以字幕文本区域预测、长宽比、前背景亮度对比等先验知识最终完成字幕文本的自动化探测定位和提取。\n提取字幕区域后,需要将其进行预处理并对单个字符进行切分,才能提交OCR识别。视频字幕自适应分割模块是根据对复杂背景下字符的特性研究分析后,通过采用区域动态局部阈值法对字幕区域二值化,同时进行侯选区域增强和重采样,在一定程度滤除了复杂背景对文字信息的干扰,也提高了文字的分辨率。通过区域垂直投影法探测准则对孤立噪声进行滤除,对粘连字符进行自适应分裂,对断裂字符进行自适应合并,最终完成单个字符的分割。\n当单个字符分割完成后,采用成熟的OCR识别技术对单个字符进行识别,得到相应的文字信息,最终获取该字幕帧的文本信息。\n视频字幕内容描述模块对识别出来的文本信息数据采用标准的XML格式以一种适于视频结构化描述的组织形式表述出来,将视频帧、场景帧和镜头帧信息与其相应的文本信息对应起来,形成基于内容的视频文本元数据描述,最终字幕分析的结果以XML文件形式存在,该XML文件命名为:PID text.xml(PID代表该任务的ID),其内容如下:\n1)所解析的文件的基本信息(包括媒体文件路径、媒体类型等);\n2)字幕串基本信息(包括串开始时间、结束时间、特征数据ID);\n3)字幕特征信息(字幕特征信息ID、字幕特征信息);\n分析任务结束后,将任务结束状态通知上层视频分析调度服务器,并且由文件上传模块将相应的视频字幕元数据描述XML文件上传至字幕特征FTP服务器。\n二.本地视频文件字幕分析\n本地视频文件分析是由本地用户触发分析任务,用户通过用户界面上视频文件输入键导入待分析视频文件,然后启动整个分析任务流程,包括视频流解码、复杂背景去除、字幕帧自动探测、字幕区域自动定位提取、字幕区域字符自适应分割、OCR识别、字幕特征元数据XML生成和将XML文件上传至字幕特征FTP服务器,分析流程图如图4所示。\n用户能通过用户界面信息直观地得到整个分析流程的状态和相应的输出信息。系统的核心分析处理模块在后台运行,视频信息、字幕帧信息和字幕信息可以通过前台用户界面直观地呈现在用户面前。用户界面提供视频播放界面区域将正在分析的视频回放显示;对检测到的字幕帧依照时间顺序动态显示在字幕帧信息界面区域;对识别出来的字幕信息及其相应的帧序号或时间位置信息也能同步地显示在字幕信息界面区域;和上层视频分析调度服务器的交互信息以及任务内容信息和状态信息显示在任务调度信息界面区域;同时系统通过用户界面控制单元提供简单明了的任务操作。\n系统通过上述流程,对上层视频分析调度服务器和本地用户提交的视频数据进行分析处理,最终检测、定位、分割、识别得到视频字幕文本信息,将视频帧、场景帧和镜头帧信息与其相应的字幕文本信息结合起来形成基于内容的视频文本元数据描述,为基于字幕内容的视频分析系统提供有力的支持。\n参照其示例性实施用例本发明已经被具体的显示和描述,本领域的普通技术人员将会理解,在不脱离所附权利要求所定义的本发明的精神和范围的情况下,可对其进行形式和细节的各种改变。
法律信息
- 2014-12-03
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 200610140494.9
申请日: 2006.10.10
授权公告日: 2010.05.12
- 2010-05-12
- 2008-01-30
专利申请权、专利权的转移(专利申请权的转移)
专利申请权、专利权的转移(专利申请权的转移)变更项目:申请人变更前权利人:鲍东山 申请人地址:北京市海淀区中关村东路1号院清华科技园8号楼科技大厦A座16层 邮政编码:100084变更后权利人:北京新岸线网络技术有限公司 申请人地址:海淀区中关村东路1号院清华科技园8号楼科技大厦A座16层 邮政编码:100084登记生效日:2007.12.28
- 2007-10-17
- 2007-08-22
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |