用于将分离的压缩视频和文本流同步的方法和装置

发明专利有效专利

申请号：
CN200610084462.1
IPC分类号：H04N7/15;H04L12/58
申请日期：
2006-05-23
申请人：
国际商业机器公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	用于将分离的压缩视频和文本流同步的方法和装置
申请号	CN200610084462.1	申请日期	2006-05-23
法律状态	授权	申报国家	中国
公开/公告日	2007-03-21	公开/公告号	CN1933590
优先权	暂无	优先权号	暂无
主分类号	H04N7/15 ? IPC结构图谱： H 电学 H9 电学 H04 电通信技术 H04N 图像通信，如电视 H04N7/00 电视系统（部件入H04N 3/00，H04N 5/00；用于数字视频信号编码，解码，压缩或解压缩的方法或装置；可选的内容分发入H04N 21/00） H04N7/14 双向工作系统〔5〕 H04N7/15 会议系统（电话会议装置入H04M 3/56）〔5〕	IPC分类号	H;0;4;N;7;/;1;5;;;H;0;4;L;1;2;/;5;8查看分类表>
申请人	国际商业机器公司	申请人地址	美国纽约阿芒克变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	国际商业机器公司	当前权利人	国际商业机器公司
发明人	史蒂文·J·布兰达;兰德尔·P·巴特曼;约翰·J·斯特克
代理机构	北京市柳沈律师事务所	代理人	黄小临;王志森

摘要

本发明提供了一种方法、装置和计算机程序产品，用于将分离的压缩视频和文本流同步以提供轻便的隐藏式字幕和即时消息与视频会议的整合。视频编码器对视频流编码，并且周期性地产生同步帧事件。每个所产生的同步帧事件具有唯一ID。文本记录代理接收该周期性产生的同步帧事件，并且产生将所存储的文本与该同步帧事件相关联的文本分组。视频解码器对视频流解码，周期性地产生具有该唯一ID的同步帧事件。文本显示代理接收该周期性地产生的同步帧事件，并且将所存储的文本分组与同步帧事件相关联。

1.一种用于将分离的压缩视频和文本流同步以提供隐藏式字幕和即时消息与视频会议的整合的装置，包括：
视频编码器，用于对视频流编码，并且周期性地产生同步帧事件，每个所产生的同步帧事件具有唯一ID；
文本记录代理，其耦接到所述视频编码器，用于接收所述周期性产生的同步帧事件，并且用于存储文本和将所述所存储的文本与所述同步帧事件相关联，其中，所述文本记录代理产生文本分组，每个文本分组包括所述唯一ID和所述相关联的文本，并且所述文本记录代理向文本流添加每个所述文本分组。
视频解码器，用于对所述视频流解码，并且周期性地产生具有所述唯一ID的所述同步帧事件；以及
文本显示代理，其耦接到所述视频解码器，用于接收所述周期性产生的同步帧事件，并且用于存储文本分组和将所述所存储的文本分组与所述同步帧事件相关联。
2.按照权利要求1的用于将分离的压缩视频和文本流同步的装置，其中，所述视频编码器包括仪器化的流视频编码器，所述仪器化的流视频编码器除了每当其对关键帧编码时都激发事件外就是普通的流视频编码器。
3.按照权利要求1的用于将分离的压缩视频和文本流同步的装置，其中，所述视频编码器识别关键帧，并且响应于所述所识别的关键帧而产生所述同步帧事件。
4.按照权利要求3的用于将分离的压缩视频和文本流同步的装置，其中，所述视频解码器响应于对所述关键帧解码而产生所述同步帧事件。
5.按照权利要求1的用于将分离的压缩视频和文本流同步的装置，其中，所述视频编码器与产生所述同步帧事件一起向所述视频流中插入同步帧。
6.按照权利要求5的用于将分离的压缩视频和文本流同步的装置，其中，所述视频解码器响应于对所述同步帧解码而产生所述同步帧事件。
7.按照权利要求1的用于将分离的压缩视频和文本流同步的装置，其中，所述视频编码器和所述视频解码器产生具有所述唯一ID的所述同步帧事件包括使用哈希算法。
8.按照权利要求1的用于将分离的压缩视频和文本流同步的装置，其中，所述视频编码器和所述视频解码器产生具有所述唯一ID的所述同步帧事件包括接收经编码的帧数据作为输入。
9.按照权利要求1的用于将分离的压缩视频和文本流同步的装置，其中，所述视频解码器包括仪器化的流视频解码器，所述仪器化的流视频解码器除了每当解码关键帧或同步帧时激发一个事件外就是普通的流视频解码器。
10.按照权利要求1的用于将分离的压缩视频和文本流同步的装置，其中，所述文本显示代理处理所存储的文本分组，并且传送用于与所述解码的视频一起显示的文本数据。
11.按照权利要求1的用于将分离的压缩视频和文本流同步的装置，其中，包括多个所述文本记录代理，每个用于通过网络向观众发送所选择的语言的文本流。
12.一种用于将分离的压缩视频和文本流同步以提供隐藏式字幕和即时消息与视频会议的整合的方法，包括下述步骤：
对视频流编码，并且周期性地产生同步帧事件，每个所产生的同步帧事件具有唯一ID；
提供文本记录代理，用于接收所述周期性产生的同步帧事件，并且用于存储文本和将所存储的文本与所述同步帧事件相关联，并且所提供的文本记录代理产生文本分组，每个文本分组包括所述唯一ID和所述相关联的文本，并且所述文本记录代理向文本流添加每个所述文本分组。
对所述视频流解码，并且周期性地产生具有所述唯一ID的所述同步帧事件；并且提供文本显示代理，用于接收和存储文本分组，接收所述周期性产生的同步帧事件，并且将所存储地文本分组与所述同步帧事件相关联。
13.按照权利要求12的用于将分离的压缩视频和文本流同步的方法，其中，产生具有所述唯一ID的所述同步帧事件包括接收经编码的帧数据作为输入。
14.按照权利要求13的用于将分离的压缩视频和文本流同步的方法，其中，还包括使用哈希算法以产生具有所述唯一ID的所述同步帧事件。
15.按照权利要求12的用于将分离的压缩视频和文本流同步的方法，包括提供一种仪器化的流视频编码器，用于对所述视频流编码，并且周期性地产生同步帧事件，所述仪器化的流视频编码器除了每当其对关键帧编码时都激发事件外就是普通的流视频编码器。
16.按照权利要求12的用于将分离的压缩视频和文本流同步的方法，包括提供一种仪器化的视频解码器，用于对所述视频流解码，并且周期性地产生同步帧事件，所述仪器化的流视频解码器除了每当解码关键帧或同步帧时激发一个事件外就是普通的流视频解码器。
17.按照权利要求12的用于将分离的压缩视频和文本流同步的方法，包括提供多个所述文本记录代理，每个用于通过网络向观众发送所选择的语言的文本流。

用于将分离的压缩视频和文本流同步的方法和装置\n技术领域\n[0001] 本发明一般地涉及数据处理领域，具体地涉及一种方法、装置和计算机程序产品，用于使分离的压缩视频和文本流同步，以提供轻便的隐藏式字幕和即时消息传送与视频会议的整合。\n背景技术\n[0002] 隐藏式字幕(closed captioning)起初被设计来使得聋人可以观看电视和电影。\n但是，任何进入具有几台电视机的酒吧或饭店的任何人也已经看到对于具有良好正常听力的人们，使用隐藏式字幕来取代了声音。诸如字幕之类的隐藏式字幕也可以用于为电影和录像提供低成本的多语言支持。\n[0003] 商业人员经常同时忙于几项事务。也许，有人希望进行电话会议，并且同时监控电视会议。在这种情况下，为视频会议提供隐藏式字幕将是有益的。不幸的是，当前的隐藏式字幕方法——最常用于电视广播——依赖于用于将文本数据编码到视频信号中的复杂编码器。\n[0004] 用于处理数字视频的各种配置为本领域所公知。例如，移动图像专家组(ISO/IEC JTC1/SC29/WG11)定义了MPEG-2标准。该标准支持恒定和/或可变的速率编码，所述速率编码允许视频流的可变带宽和质量。该标准也定义了系统层，其将多个媒体源集成到具有整合的时间戳的单个数据流中。该系统层支持使用诸如MPEG1或MPEG-2视频或音频的各种视频和音频数据压缩技术所编码的信息的发送。在所述MPEG-2标准中，每个视频帧(或场)被划分为I、P或B帧。I帧是不使用基准帧而编码的内帧(intra-frame)。而P帧和B帧是使用一些基准帧而预测性地编码的间帧(inter-frame)。\n[0005] 图1图示了一种现有技术的隐藏式字幕配置，其包括将隐藏式字幕或文本数据编码到视频信号中的视频设备，诸如由美国康奈提格州的Wallingford的VBrick系统公司制造的Vbrick MPEG视频设备。所编码的视频被提供显示视频和显示隐藏式字幕的Vbrick MPEG解码器解码。\n[0006] 其他方法保持视频和声音数据分离，诸如DVD字幕，但是两者都依赖于多个精确的同步时间源以当记录时使文本和视频信号同步。\n[0007] 当前对于加上隐藏式字幕的视频会议的支持依赖于这些技术，并且仅仅由少数视频会议服务提供商——诸如www.polycom.com——提供。其成本和复杂性在许多情形下阻碍了企业使用隐藏式字幕，因为这些技术原本被设计用于电视和电影，而不是视频会议应用。\n[0008] 需要一种有效的机制来将分离的压缩视频和文本流同步，以提供轻便的隐藏式字幕和即时消息传送与视频会议的整合。需要一种用于加隐藏式字幕的轻便方法，它容易使用并且非常便宜，包括视频会议产品或服务的标准，可以给销售商提供市场上的显著优势。\n需要一种有效的机制来便宜地和容易地使得客户能够使用隐藏式字幕，以使得他们的视频会议可以用于听力障碍者或多语言支持。\n发明内容\n[0009] 本发明的主要方面是提供一种方法、装置和计算机程序产品，用于使分离的压缩视频和文本流同步以提供隐藏式字幕和即时消息与视频会议的整合。本发明的其他重要方面是提供这样的方法、装置和计算机程序产品，用于使分离的压缩视频和文本流同步以提供隐藏式字幕和即时消息与视频会议的整合，并且基本上没有副作用，而且克服了现有技术配置的许多缺点。\n[0010] 简而言之，提供了一种方法、装置和计算机程序产品，用于使分离的压缩视频和文本流同步以提供隐藏式字幕和即时消息与视频会议的整合。视频编码器编码视频流，并且周期性地产生同步帧事件。每个产生的同步帧事件具有唯一ID。文本记录代理(agent)接收该周期性产生的同步帧事件，并且产生将所存储的文本与所述同步帧事件相关联的文本分组。视频解码器解码所述视频流，周期性地产生具有该唯一ID的同步帧事件。文本显示代理接收该周期性产生的同步帧事件，并且将所存储的文本分组与所述同步帧事件相关联。\n附图说明\n[0011] 通过在下面详细说明在附图中图解的本发明的优选实施例，可以最佳地理解本发明以及上述和其他目的和优点，其中：\n[0012] 图1是图解现有技术的隐藏式字幕配置的方框图。\n[0013] 图2是图解按照优选实施例的隐藏式字幕装置的方框图；\n[0014] 图3和4是功能方框图，它们分别图解了按照优选实施例的图2的隐藏式字幕装置的示例性仪器化(instrument)的视频编码器和示例性文本记录代理；\n[0015] 图5是图解按照优选实施例的用于实现隐藏式字幕的示例性步骤的流程图；\n[0016] 图6和7是功能方框图，分别图解了按照优选实施例的图2的隐藏式字幕装置的示例性实现的视频解码器和示例性文本显示代理；\n[0017] 图8是图解按照优选实施例的用于实现隐藏式字幕的示例性步骤的流程图；以及[0018] 图9是图解按照优选实施例的计算机程序产品的方框图。\n具体实施方式\n[0019] 按照优选实施例的特征，提供了一种用于将视频与隐藏式字幕文本同步的独特方法，其易于通过当前编码器和解码器技术的简单仪器使用(instrumentation)而实现所述方法。用于实现优选实施例的方法的装置包括编码器和解码器。\n[0020] 现参考附图，在图2中，示出了根据优选实施例的、一般以附图标号200指示的隐藏式字幕装置。该隐藏式字幕装置200包括仪器化的视频编码器202，用于接收视频信号，并且连接到用于接收隐藏式字幕的文本记录代理204。\n[0021] 根据优选实施例，仪器化的视频编码器202除了每当其对关键帧(keyframe)编码时都激发事件外就是普通的流视频编码器。关键帧是在诸如MPEG的视频编码算法中使用的概念。仪器化的视频编码器202向文本记录代理204应用所述关键帧事件206。关于图\n3进一步图解和说明根据优选实施例的仪器化的视频编码器202。\n[0022] 按照优选实施例的特征，在加隐藏式字幕的装置200中对于同步帧使用关键帧概念。对于不使用关键帧的视频压缩算法，编码器202可以以固定间隔向视频流中插入无信息同步帧。重要的是，所述编码器可以决定每X个帧一个帧。当对关键帧编码或插入同步帧时，编码器202发出事件信号。该事件信号包含用于该关键帧或同步帧事件的唯一ID，诸如哈希(hash)码或时间码。\n[0023] 按照优选实施例的文本记录代理204例如经由语音识别软件或手动式输入来记录会议的音频，并且将此文本保持在缓冲器中。关于图4进一步图解和说明按照优选实施例的文本记录代理204。\n[0024] 按照优选实施例的特征，文本记录代理204倾听来自编码器的同步帧事件206。当遇到事件206时，将当前缓冲器中的文本与关键帧的唯一ID相关联。因为手动输入的文本或缓慢语音处理可能相对于视频被延迟，因此文本记录代理204能够使该关联错开所设置数目的帧。即，当读取关键帧事件206时，将该唯一ID放入特定大小的队列中。在文本开始与帧相关联之前，需要填充这个队列。通过这种方式，将文本与例如在键入所述文本之前几秒记录的帧相关联。该唯一帧ID用于将每个文本缓冲置于线性数据结构中，该线性数据结构可以通过传输控制协议(TCP)/网际协议(IP)网络208而沿着视频流旁成流。\n[0025] 隐藏式字幕装置200包括解码部分，该解码部分也包括两部分：仪器化的流视频解码器210和文本显示代理214。仪器化的解码器210除了每当解码关键帧或同步帧时激发一个事件外就是普通的流视频解码器。这个事件包含将标识该帧的唯一ID。这个唯一ID必须匹配由编码器202对于帧事件208生成的唯一ID。\n[0026] 按照优选实施例的特征，相比于将文本编码到视频信号中的传统隐藏式字幕的视频会议支持技术提供了显著改进。首先，隐藏式字幕装置200的实现显著更低廉，因为它仅仅需要被添加到当前的编码器和解码器技术的非常简单的文本记录和重放代理以及小的仪器。而且，在多语言应用中，因为文本和视频流是分离的，所以获得了超级性能。例如，为了提供三种不同的语言的隐藏式字幕，隐藏式字幕装置200生成1个视频流和3个文本流。\n当前的技术将需要编码和发送3个不同的视频流，每种语言一个视频流。\n[0027] 参见图3和4，它们示出了功能方框图，分别图解了按照优选实施例的图2的隐藏式字幕装置200的示例性仪器化的视频编码器202和示例性文本记录代理204。\n[0028] 现参考图3，仪器化的视频编码器202接收视频帧，如方框300中所示。仪器化的视频编码器202如方框302中所示对该视频帧编码，并且检查该视频帧是否是同步(sync)帧，如在判定方框304中所示。仪器化的视频编码器202周期性地产生同步帧，例如每N个视频帧产生一个同步帧。例如，仪器化的视频编码器202可以选择一个帧来变为同步帧，然后继续每N个视频帧产生一个同步帧。或者，对于由MPEG型编码器实现的仪器化的视频编码器202，其中，I帧诸如每15-30个帧自然产生，并且可以容易地被适配为同步帧，或者将第二个I帧适配为同步帧，或者使用作用最佳的其他间隔。\n[0029] 对于在判定方框304标识的同步帧，对于所编码的帧产生唯一ID，如方框306中所示。优选实施例的一种算法在方框306使用编码帧数据的至少一部分或全部来作为输入而产生唯一ID。然后，在通常的操作下，当解码器210应用优选实施例的这种算法时，获得相同的唯一ID结果。按照优选实施例的特征，在方框306使用一些或全部的编码帧数据来作为输入以产生唯一ID使得能够将文本与同步帧相关联，而不用实际将任何额外数据编码到视频中。哈希算法可以有利地用于实现该唯一ID产生算法；但是，应当理解，本发明并不限于哈希算法。\n[0030] 如方框308中所示，产生包含所述唯一ID的同步帧事件。在图2中被示出为关键帧事件206的所产生的同步帧事件被应用到文本记录代理204。然后并且当在判定方框304未识别出同步帧时，将所述帧加到视频流，如在方框310中所示。\n[0031] 现在参见图4，文本记录代理204接收隐藏式字幕文本，如在方框400中所示。如在方框402中所示，将隐藏式字幕文本存储在隐藏式字幕文本缓冲器404中，直到将隐藏式字幕文本与同步帧事件206相关联。文本记录代理204接收同步帧事件，如在方框406中所示。如在方框408中所示，将同步帧事件存储在0-N长度的队列410中。进行检查以确定是否队列410已满，如在判定方框412中所示。如果队列410未满，则在0-N长度队列中存储所述同步帧事件的操作继续。如果队列410已满，则进行数据传送以从该队列去除最先存储的事件，并且获得同步帧事件的唯一ID，如在方框414中所示。从隐藏式字幕的文本缓冲器方框404进行文本的数据传送，如在方框416中所示。如在方框418中所示来产生文本分组，并且将所述文本分组加到隐藏式字幕文本流，如在方框420中所示。如图所示，所产生的文本分组包括唯一ID422和隐藏式字幕文本424。\n[0032] 现在参见图5，示出了以方框500中所示的记录开始、按照优选实施例的实现隐藏式字幕的示例性步骤。摄像机502提供被应用到如方框506中所示的仪器化的视频编码器\n202的视频504。麦克风508提供了被应用到如方框512所指示的音频编码器的音频510。\n复用器514向观众发送视频流，如方框516中所示。\n[0033] 用于隐藏式字幕文本项1诸如如方框518中所示的英语文本的计算机1向如方框\n522中所示的文本记录代理204提供了如方框520中所示的英语的隐藏式字幕文本。从方框506处的仪器化的视频编码器202接收同步帧事件的、方框522处的文本记录代理204通过网络向观众发送英语文本流，如方框524中所示。用于隐藏式字幕文本项2诸如如方框526中所示的西班牙语文本的计算机2向方框530中所示的文本记录代理204提供如方框528中所示的西班牙语的隐藏式字幕文本。从方框506处的仪器化的视频编码器202接收同步帧事件的、方框530处的文本记录代理204通过网络向观众发送西班牙语文本流，如方框524中所示。\n[0034] 图6和7是功能方框图，分别图解了按照优选实施例的图2的隐藏式字幕装置200的示例性仪器化的视频解码器210和示例性文本显示代理214。\n[0035] 现参考图6，仪器化的视频解码器210如方框600中所示地接收经编码的视频帧，并且如方框602中所示地对该帧解码。进行检查以确定这是否是同步帧，如判定方框604中所示。如果这是同步帧，则对于经编码的帧产生唯一ID，如方框606中所示。然后，产生包含该唯一ID的同步帧事件，如方框608中所示。然后并且当在判定方框604未识别同步帧时，向用户显示该帧，如方框610中所示。\n[0036] 现参考图7，文本显示代理214接收文本分组，如方框700中所示。如方框702中所示，将隐藏式字幕文本存储在隐藏式字幕文本缓冲器704中，直到将隐藏式字幕文本与同步帧事件206相关联。文本显示代理214接收同步帧事件，如方框706中所示。获得该同步帧事件的唯一ID，如方框708中所示。然后，从隐藏式字幕文本缓冲器704进行数据传送，以获得与该唯一ID相关联的文本帧和在缓冲器中的任何更老的文本帧，如方框710中所示。去除来自最老文本分组的文本，如方框710中所示。在方框710中，应当以文本帧到达的顺序来逐个地从缓冲器704中拉出文本帧。如果从缓冲器704检索到文本帧并且识别出较老的帧，则因某种原因丢失了同步帧，并且这些较老的帧被从缓冲器拉出，并且首先显示，以保证所有的文本被显示并且有序。文本显示代理214检查以确定是否已经处理了从缓冲器704去除的所有分组，如判定方框714中所示。如果没有，则如方框716中所示，将文本追加到如方框718中所示的缓冲器的结尾。然后，在方框712处去除来自最老文本分组的文本。否则，当已经处理了从缓冲器704去除的所有分组时，进行数据传送以从隐藏式字幕缓冲器718获得文本，如方框720中所示。然后，向观众发送隐藏式字幕文本，如方框\n722中所示。\n[0037] 现参考图8，示出了例如对于英语观众在方框800开始或例如对于西班牙语观众在方框802开始的、根据优选实施例的实现观看隐藏式字幕视频的示例性步骤。从网络获得到来的英语文本流，如方框804中所示。类似地，从网络获得到来的西班牙语文本流，如方框806中所示。到来的视频/音频流如在方框808中所示被从网络获得，并且被应用到如相应的方框812、814中所示的相应的仪器化视频解码器210。方框812、814处的相应的仪器化视频解码器210向在相应的方框816、818中所示的相应文本显示代理214应用同步帧事件。方框816、818处的文本显示代理214分别接收方框804、806处的到来的英语和西班牙语文本流。客户软件如方框820中所示在一个程序窗口中显示最后的输出，并且如方框822中所示向观众显示音频/视频和隐藏式字幕的英语文本。客户软件如方框824中所示在一个程序窗口中显示最后的输出，并且如方框826中所示向观众显示音频/视频和隐藏式字幕的西班牙语文本。\n[0038] 现参考图9，图解了本发明的制品或计算机程序产品900。该计算机程序产品900包括记录介质902，诸如软盘、光学读取致密盘或CD-ROM形式的高容量只读存储器、磁带、诸如数字或模拟通信链路的传输型媒体或类似的计算机程序产品。记录介质902在介质\n902上存储用于执行图2的系统200中的优选实施例的隐藏式字幕的方法的程序组件904、\n906、908、910。\n[0039] 由所记录的程序组件904、906、908、910定义的程序指令序列或一个或多个相关的模块的逻辑集合指导优选实施例的实现隐藏式字幕的隐藏式字幕系统200。\n[0040] 虽然已参照附图中所示的本发明的实施例的细节描述了本发明，但这些细节并不意欲限制如在所附权利要求中要求保护的本发明的范围。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	GB2352845A	暂无	1999-07-29	System for recording and retrieval of multimedia conferences未知	DATA CONNECTION LTD
2	CN1398485A	2003-02-19	2001-09-26	重放具有闭合字幕文本的视频的系统和方法失效专利	皇家菲利浦电子有限公司

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供