著录项信息
专利名称 | 实现影音文件中声音与字幕同步的方法、设备和计算机 |
申请号 | CN200910078146.7 | 申请日期 | 2009-02-18 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2010-08-18 | 公开/公告号 | CN101808202A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04N5/278 | IPC分类号 | H;0;4;N;5;/;2;7;8;;;G;1;1;B;2;7;/;1;0;;;G;1;1;B;2;7;/;3;4查看分类表>
|
申请人 | 联想(北京)有限公司 | 申请人地址 | 北京市海淀区上地信息产业基地创业路6号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 联想(北京)有限公司 | 当前权利人 | 联想(北京)有限公司 |
发明人 | 武亚强;王哲鹏;王巍;张建忠;蔡明祥;王兴楠;於朝晖 |
代理机构 | 北京银龙知识产权代理有限公司 | 代理人 | 许静 |
摘要
本发明提供一实现影音文件中声音与字幕同步的方法、设备和计算机,方法包括:获取到当前播放的所述影音文件的第一声音和第一字幕,其中,所述第一声音与所述第一字幕不匹配,所述第一声音在所述影音文件中对应第一时间戳,所述第一字幕在所述影音文件中对应第二时间戳;计算所述第一声音与所述第一字幕的相似度,得到一结果;当所述结果表明所述相似度大于一阈值时,比较所述第一时间戳与所述第二时间戳,得到一时间差值;根据所述时间差值对所述第一时间戳与所述第二时间戳进行调整,使当前所述影音文件的第一声音与第一字幕实现同步输出。当播放的声音和当前字幕不同步的时候,使用本发明可以实现自动实现字幕与声音的同步,极大的改善用户体验。
1.一种实现影音文件中声音与字幕同步的方法,其特征在于,包括:
获取到当前播放的所述影音文件的第一声音和第一字幕,其中,所述第一声音与所述第一字幕不匹配,所述第一声音在所述影音文件中对应第一时间戳,所述第一字幕在所述影音文件中对应第二时间戳;
计算所述第一声音与所述第一字幕的相似度,得到一结果;
当所述结果表明所述相似度大于一阈值时,比较所述第一时间戳与所述第二时间戳,得到一第一时间差值;
根据所述第一时间差值对所述第一时间戳与所述第二时间戳进行调整,使当前所述影音文件的第一声音与第一字幕实现同步输出。
2.根据权利要求1所述的方法,其特征在于,从所述影音文件中得到一所述第一时间差值,具体包括:
将所述影音文件的时间长度分为至少一个校准时间段;
在每一个所述校准时间段中,获取所述第一声音和所述第一字幕,计算所述第一声音与所述第一字幕之间的相似度,当所述相似度大于所述阈值时,计算出所述校准时间段的第二时间差值;
求所有校准时间段的所述第二时间差值的平均值,得到所述第一时间差值。
3.根据权利要求1所述的方法,其特征在于,获取到当前播放的所述影音文件的第一声音和第一字幕,之前还包括:
识别所述第一声音的语言类型,当所述影音文件所在的系统不支持所述语言类型时,直接播放所述影音文件;以及,
寻找所述第一字幕所在的文件,当不存在所述文件时,直接播放所述影音文件。
4.根据权利要求1所述的方法,其特征在于,根据所述时间差值对所述第一时间戳与所述第二时间戳进行调整,进一步包括:
以所述第一时间戳为基准,调整所述第二时间戳使输出字幕与播放声音实现同步。
5.根据权利要求1所述的方法,其特征在于,获取到当前播放的所述影音文件的第一声音,进一步包括:
将所述第一声音转换为文字形式的一文件。
6.一种实现影音文件中声音与字幕同步的设备,其特征在于,包括:
语音识别单元,用于从一影音文件中获取一第一声音,所述第一声音在所述影音文件中对应第一时间戳;
字幕解析单元,用于从所述影音文件中获取一第一字幕,所述第一字幕在所述影音文件中对应第二时间戳,其中,所述第一时间戳的时间点与所述第二时间戳的时间点不同;
自动校对单元,用于计算所述第一声音与所述第一字幕之间的相似度,得到一结果;当所述结果表明所述相似度大于一阈值时,比较所述第一时间戳与所述第二时间戳,得到一第一时间差值;
同步单元,用于根据所述第一时间差值对所述第一时间戳与所述第二时间戳进行调整,使当前所述影音文件的第一声音与第一字幕实现同步输出。
7.根据权利要求6所述的设备,其特征在于,还包括:
时间差值均值模块,用于当所述影音文件的时间长度具有至少一个校准时间段时;在每一个所述校准时间段中,通知所述自动校对单元计算出一第二时间差值;
求所有的所述第二时间差值的平均值,得到所述第一时间差值;将所述第一时间差值输出给所述同步单元。
8.根据权利要求7所述的设备,其特征在于,还包括:
校对执行模块,用于以所述第一时间戳为基准,根据所述第一时间差值调整所述第二时间戳使输出字幕与播放声音实现同步。
9.根据权利要求6所述的设备,其特征在于,还包括:
校准语音转换模块,用于将所述第一声音转换为文字形式的一文件。
10.一种实现影音文件中声音与字幕同步的计算机,包括一显示接口单元,其特征在于,还包括如权利要求6至权利要求9中任一项所述的设备,所述设备的输出端与所述显示接口单元连接。
实现影音文件中声音与字幕同步的方法、设备和计算机\n技术领域\n[0001] 本发明涉及影音技术,特别是指一种实现影音文件中声音与字幕同步的方法、设备和计算机。\n背景技术\n[0002] 人们对娱乐的消费在消费支出中所占的比重越来越大,其中,影视娱乐是一种主要方式;目前影视播放中存在字幕与画面声音不能同步的问题,很大程度影响了用户感受,在播放非母语的影视过程中,字幕与画面声音的不同步就显得难以接受。\n[0003] 目前对于字幕和画面声音不同步的解决方法中,最普遍的是采用用户手工操作的方式,由用户根据所看到的画面,手动提前或延迟字幕的出现时间。\n[0004] 发明人在实现本发明的过程中,发现现有技术中至少存在如下问题:需要用户自主判断画面内容选择校正时间段,同时用户可能需要多次调整后才能完成同步,影响了用户的体验。\n发明内容\n[0005] 本发明的目的是提供一种实现影音文件中声音与字幕同步的方法、设备和计算机,用于解决现有技术中,需要用户自主判断画面内容并进行校正,需要多次调整后才能完成同步,影响了用户的体验的缺陷。\n[0006] 为了解决上述问题,本发明提供了一种实现影音文件中声音与字幕同步的方法,包括:获取到当前播放的所述影音文件的第一声音和第一字幕,其中,所述第一声音与所述第一字幕不匹配,所述第一声音在所述影音文件中对应第一时间戳,所述第一字幕在所述影音文件中对应第二时间戳;计算所述第一声音与所述第一字幕的相似度,得到一结果;\n当所述结果表明所述相似度大于一阈值时,比较所述第一时间戳与所述第二时间戳,得到一第一时间差值;根据所述第一时间差值对所述第一时间戳与所述第二时间戳进行调整,使当前所述影音文件的第一声音与第一字幕实现同步输出。\n[0007] 所述的方法中,从所述影音文件中得到一所述第一时间差值,具体包括:将所述影音文件的时间长度分为至少一个校准时间段;在每一个所述校准时间段中,获取所述第一声音和所述第一字幕,计算所述第一声音与所述第一字幕之间的相似度,当所述相似度大于所述阈值时,计算出所述校准时间段的第二时间差值;求所有校准时间段的所述第二时间差值的平均值,得到所述第一时间差值。\n[0008] 所述的方法中,获取到当前播放的所述影音文件的第一声音和第一字幕,之前还包括:识别所述第一声音的语言类型,当所述影音文件所在的系统不支持所述语言类型时,直接播放所述影音文件;以及,寻找所述第一字幕所在的文件,当不存在所述文件时,直接播放所述影音文件。\n[0009] 所述的方法中,根据所述时间差值对所述第一时间戳与所述第二时间戳进行调整,进一步包括:以所述第一时间戳为基准,调整所述第二时间戳使输出字幕与播放声音实现同步。\n[0010] 所述的方法中,获取到当前播放的所述影音文件的第一声音,进一步包括:将所述第一声音转换为文字形式的一文件。\n[0011] 一种实现影音文件中声音与字幕同步的设备,包括:语音识别单元,用于从一影音文件中获取一第一声音,所述第一声音在所述影音文件中对应第一时间戳;字幕解析单元,用于从所述影音文件中获取一第一字幕,所述第一字幕在所述影音文件中对应第二时间戳,其中,所述第一时间戳的时间点与所述第二时间戳的时间点不同;自动校对单元,用于计算所述第一声音与所述第一字幕之间的相似度,得到一结果;当所述结果表明所述相似度大于一阈值时,比较所述第一时间戳与所述第二时间戳,得到一第一时间差值;同步单元,用于根据所述第一时间差值对所述第一时间戳与所述第二时间戳进行调整,使当前所述影音文件的第一声音与第一字幕实现同步输出。\n[0012] 所述的设备中,还包括:时间差值均值模块,用于当所述影音文件的时间长度具有至少一个校准时间段时;在每一个所述校准时间段中,通知所述自动校对单元计算出一第二时间差值;求所有的所述第二时间差值的平均值,得到所述第一时间差值;将所述第一时间差值输出给所述同步单元。\n[0013] 所述的设备中,还包括:校对执行模块,用于以所述第一时间戳为基准,根据所述第一时间差值调整所述第二时间戳使输出字幕与播放声音实现同步。\n[0014] 所述的设备中,还包括:校准语音转换模块,用于将所述第一声音转换为文字形式的一文件。\n[0015] 一种实现影音文件中声音与字幕同步的计算机,包括一显示接口单元,还包括如上述各技术方案中任一项所述的设备,所述设备的输出端与所述显示接口单元连接。\n[0016] 本发明的实施例,通过采用预设的业务逻辑方法或者设备单元,对于一影音文件中的声音与字幕,计算出现同一内容时,其分别对应的时间戳之间的时间差值,并根据时间差值对时间戳进行调整,从而达到当字幕与声音不同步的时候,不需要用户采用手动的方式对字幕进行校正,就能自动实现字幕与声音的同步,极大的改善用户体验。\n附图说明\n[0017] 图1为本发明实施例方法流程示意图一;\n[0018] 图2为本发明实施例方法流程示意图二;\n[0019] 图3为本发明实施例设备结构示意图一;\n[0020] 图4为本发明实施例设备结构示意图二;\n[0021] 图5为本发明实施例计算机结构示意图。\n具体实施方式\n[0022] 为使本发明的目的、技术特征和实施效果更加清楚,下面将结合附图及具体实施例对本发明的技术方案进行详细描述。\n[0023] 典型的影音文件包含有一个视频流,一个或多个音频流,此外会有独立的一个或多个字幕文件。传统的播放器在播放影音文件时,首先需要把影音文件分割为视频流和音频流之后独立播放,而对于字幕文件,则单独调用显示。本发明提供的实施例中,提供一种实现影音文件中声音与字幕同步的方法,如图1所示,包括:\n[0024] 步骤101.获取到当前播放的所述影音文件的第一声音和第一字幕,其中,所述第一声音与所述第一字幕不匹配,所述第一声音在所述影音文件中对应第一时间戳,所述第一字幕在所述影音文件中对应第二时间戳;\n[0025] 步骤102.计算所述第一声音与所述第一字幕的相似度,得到一结果;\n[0026] 步骤103.当所述结果表明所述相似度大于一阈值时,比较所述第一时间戳与所述第二时间戳,得到一时间差值;\n[0027] 步骤104.根据所述时间差值对所述第一时间戳与所述第二时间戳进行调整,使当前所述影音文件的第一声音与第一字幕实现同步输出。\n[0028] 实现本实施例记载的技术方案,不需要用户参与,就能自动实现字幕与声音的同步,极大的改善用户体验。\n[0029] 本发明实施例不仅可以对字幕与声音的同步进行校准,而且可以进一步优化,在计算所述第一声音与所述第一字幕的相似度,得到一结果之前还可以:将所述影音文件的时间长度分为至少一个校准时间段;在每一个所述校准时间段中,均计算出一所述时间差值;求所有的所述时间差值的平均值,得到一时间平均差值;根据所述时间平均差值进行调整。如图2所示,包括:\n[0030] 步骤201.读取一待播放的影音文件。\n[0031] 步骤202.判断当前设备系统是否支持该影音文件中包含的语言类型;如果是,转步骤203,否则转步骤207。\n[0032] 步骤203.字幕文件是否存在;如果是,转步骤204,否则转步骤207。\n[0033] 步骤204.识别语音,读取对应的字幕文件。\n[0034] 步骤205.对语音输出与字幕显示的时间匹配进行校正;包括:\n[0035] 确定语音的一个校准时间段,识别该校准时间段内的声音,称为第一声音,解析字幕文件在所述校准时间段内的字幕,称为第一字幕;\n[0036] 计算第一声音与所述第一字幕之间的相似度,例如通过现有的声音识别技术计算所述相似度:\n[0037] 将所述相似度与预先设定的阈值相比较,如果相似度大于该阈值,则将该校准时间段的时间戳与字幕时间戳对比,记录差异,这一差异称为该校准时间段的时间差值。\n[0038] 如果相似度小于阈值,则不对字幕对应的第二时间戳进行调整。\n[0039] 由于整个影音文件的时间包含若干个所述校准时间段,计算每一个校准时间段的时间差值;所有的时间差值形成一个时间差值的队列;\n[0040] 对该时间差值的队列求平均值,可以得到一时间平均差值,该时间平均差值将成为对字幕时间改动的输出值。\n[0041] 步骤206.根据所述时间平均差值对实际输出的字幕进行调整。\n[0042] 在调整的过程中,以第一时间戳为基准,调整第二时间戳使输出字幕与播放声音实现同步。\n[0043] 步骤207.在播放所述影音文件时显示调整之后的字幕,或者直接播放影音文件。\n[0044] 如果用户正在使用播放器放映一个影片,该影片的视频和声音集成在一AVI格式的文件中;由于AVI电影影片和字幕是分开的,对应有srt格式的字幕文件,或者同时存在ldx和sub格式的文件作为字幕文件。即,如果存在一文件Test.avi,对应存在:Test.srt或者Test.ldx和Test.sub;并且以上各个文件应当存放在同一路径下的同一个文件夹File中。当声音和字幕不一致时,应用本申请提供的技术,包括:\n[0045] 播放器读取一待播放的影音文件对应的文件夹;文件夹中有文件Test.avi和字幕文件Test.srt;其中,Test.avi既是视频文件,也是语音文件,Test.srt中则是文字。\n[0046] 判定当前设备系统,例如装有Windows操作系统的计算机,支持所述播放器该影音文件中包含的语言类型,即支持Test.srt中的标准汉字。\n[0047] 判定字幕文件Test.srt存在。\n[0048] 识别Test.avi中的语音,读取对应的字幕文件Test.srt。\n[0049] 当发现正在播放的语音和输出的字幕不同步的时候,此时,对输出Test.avi中的语音,以及输出Test.srt中的字幕的时间匹配进行校正,包括:\n[0050] 确定语音的一个校准时间段,例如60秒,识别该校准时间段内的声音,[0051] 称为第一声音,解析字幕文件Test.srt在所述校准时间段内的字幕,称为第一字幕;计算第一声音与所述第一字幕中的标准汉字之间的相似度:将所述相似度与预先设定的阈值,例如0.95,相比较,如果相似度大于该阈值0.95,则将该校准时间段的时间戳与字幕时间戳对比,记录差异,这一差异称为该校准时间段的时间差值。如果相似度小于阈值\n0.95,则不对字幕对应的第二时间戳进行调整。\n[0052] 由于整个影音文件的时间包含若干个所述校准时间段,计算每一个校准时间段的时间差值;所有的时间差值形成一个时间差值的队列;对该时间差值的队列求平均值,可以得到一时间平均差值,例如3.5秒,该时间平均差值3.5秒将成为对字幕时间改动的输出值。\n[0053] 根据所述时间平均差值3.5秒对实际输出的字幕进行调整。在调整的过程中,以第一时间戳为基准,调整第二时间戳,这包括:将输出字幕文件Test.srt中该60秒内所有的对应的标准汉字的时间调整3.5秒;所述调整具体为提前还是延后应根据具体情形对待;使输出字幕与播放声音实现同步。\n[0054] 在播放所述影音文件时显示调整之后的字幕,或者直接播放影音文件。\n[0055] 应用本实施例提供的技术,不必频繁对声音输出与字幕之间的同步进行调整,减少了计算量。\n[0056] 由于传统的播放器在播放影音文件时,首先需要把影音文件分割为视频流和音频流,独立播放,而对于字幕文件,则单独调用显示。因而,本实施例提供了一种实现影音文件中声音与字幕同步的设备,如图3所示,包括:\n[0057] 语音识别单元301,用于从一影音文件中获取一第一声音,所述第一声音在所述影音文件中对应第一时间戳;\n[0058] 字幕解析单元302,用于从所述影音文件中获取一第一字幕,所述第一字幕在所述影音文件中对应第二时间戳,其中,所述第一时间戳的时间点与所述第二时间戳的时间点不同;\n[0059] 自动校对单元303,用于计算所述第一声音与所述第一字幕之间的相似度,得到一结果;当所述结果表明所述相似度大于一阈值时,比较所述第一时间戳与所述第二时间戳,得到一时间差值;\n[0060] 同步单元304,用于根据所述时间差值对所述第一时间戳与所述第二时间戳进行调整,使当前所述影音文件的第一声音与第一字幕实现同步输出。\n[0061] 应用本实施例提供的技术,不需要用户参与,就能自动实现字幕与声音的同步,极大的改善了用户体验。\n[0062] 为完善设备的功能,如图4所示,还可以包括:\n[0063] 校准语音转换模块401,用于将所述第一声音转换为文字形式的一文件。\n[0064] 判断模块402,用于识别所述第一声音的语言类型,当系统不支持所述语言类型时,直接播放所述影音文件;以及,寻找所述第一字幕所在的文件,当不存在所述文件时,直接播放所述影音文件。\n[0065] 时间差值均值模块403,用于获取至少一个所述校准时间段的所述时间差值之后,求所有的所述时间差值的平均值,得到一时间平均差值;根据所述时间平均差值进行调整。\n[0066] 校对执行模块404,用于以第一时间戳为基准,根据时间差值或者时间平均差值调整根据所述第二时间戳上输出字幕的时刻和速度。\n[0067] 本发明的实施例具有以下有益效果,不需要用户参与,就能自动实现字幕与声音的同步,极大的改善用户体验。\n[0068] 与所描述的设备对应,本发明还提供了一种实现影音文件中声音与字幕同步的计算机,包括一显示接口单元501,还包括所描述的一种智能实现影音文件中声音与字幕同步的设备,如图5所示,所述设备的输出端与所述显示接口单元连接。\n[0069] 其中,显示接口单元501,用于接收来自同步单元304或者校对执行模块404的输出;其中,设备中的的同步单元304或者校对执行模块404均可以看作输出端。\n[0070] 本发明的实施例具有以下有益效果,采用预设的业务逻辑方法或者设备单元,对于一影音文件中的声音与字幕,计算出现同一内容时,其分别对应的时间戳之间的时间差值,并根据时间差值对时间戳进行调整,不需要用户参与,就能自动实现字幕与声音的同步,极大的改善用户体验。\n[0071] 应当说明的是,以上实施例仅用以说明本发明的技术方案而非限制,所有的参数取值可以根据实际情况调整,且在该权利保护范围内。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神范围,其均应涵盖在本发明的权利要求范围当中。
法律信息
- 2013-09-04
- 2010-12-22
实质审查的生效
IPC(主分类): H04N 5/278
专利申请号: 200910078146.7
申请日: 2009.02.18
- 2010-08-18
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2006-11-29
|
2005-05-23
| | |
2
| |
2005-02-16
|
2004-05-17
| | |
3
| |
2006-11-08
|
2005-05-01
| | |
4
| | 暂无 |
2007-03-16
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |