著录项信息
专利名称 | 获取文字提示文件的方法及装置 |
申请号 | CN201610951816.1 | 申请日期 | 2016-10-26 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2017-03-22 | 公开/公告号 | CN106528714A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 广州酷狗计算机科技有限公司 | 申请人地址 | 广东省广州市天河区黄埔大道中315号自编1-17
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 广州酷狗计算机科技有限公司 | 当前权利人 | 广州酷狗计算机科技有限公司 |
发明人 | 刘勇;庄正中;刘翠;陈传艺;李祖辉 |
代理机构 | 北京三高永信知识产权代理有限责任公司 | 代理人 | 郭晶 |
摘要
本发明公开了一种获取文字提示文件的方法及装置,属于网络技术领域。该方法包括:获取第一文字提示文件和至少一个第二文字提示文件;对于第一文字提示文件中多行提示信息中的每行,如果该行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,将第二文字提示文件的至少一行确定为第一目标行,将第一目标行所在的第二文字提示文件确定为第一目标文字提示文件;如果第一目标文字提示文件的数量与至少一个第二文字提示文件的数量的比例大于第二数值,将与该行之间相似度最高的第一目标行确定为待合成的行;根据第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文件。本发明提供了一种较为准确地获取文字提示文件的方法。
1.一种获取文字提示文件的方法,其特征在于,所述方法包括:
获取第一文字提示文件和至少一个第二文字提示文件,所述第一文字提示文件和所述第二文字提示文件均对应同一个多媒体文件;
遍历所述第一文字提示文件中多行提示信息中的每行,
如果遍历到的行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,则将所述第二文字提示文件的至少一行确定为第一目标行,将所述第一目标行所在的第二文字提示文件确定为第一目标文字提示文件;
如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例大于第二数值,则将与所述遍历到的行之间相似度最高的第一目标行确定为待合成的行;
根据所述第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文件。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
遍历所述第一文字提示文件中多行提示信息中的每行、以及所述至少一个第二文字提示文件中的每个第二文字提示文件,
比较所述第一文字提示文件的所述遍历到的行与所述第二文字提示文件的至少一行所包括的字符数;
当所述第一文字提示文件的所述遍历到的行所包括的字符数不小于所述第二文字提示文件的至少一行所包括的字符数,则将所述遍历到的行所包括的字符数确定为目标字符数;或,
当所述第一文字提示文件的所述遍历到的行所包括的字符数小于所述第二文字提示文件的至少一行所包括的字符数,则将所述第二文字提示文件的至少一行所包括的字符数确定为目标字符数;
确定所述第一文字提示文件的所述遍历到的行和所述第二文字提示文件的至少一行中的相同字符数;
将所述相同字符数与所述目标字符数的比值,获取为所述遍历到的行与所述第二文字提示文件的至少一行之间的相似度。
3.根据权利要求1所述的方法,其特征在于,所述获取第一文字提示文件和至少一个第二文字提示文件包括:
获取多个版本的文字提示文件,所述多个版本的文字提示文件均对应所述同一个多媒体文件;
确定所述多个版本的文字提示文件中,每个文字提示文件所包括的文件字符数、以及多个所述文件字符数中的中位数;
在所述多个版本的文件提示文件中,将文件字符数与所述中位数最相近的文字提示文件获取为所述第一文字提示信息,将除所述第一文字提示文件之外的文字提示文件获取为所述第二文字提示文件。
4.根据权利要求3所述的方法,其特征在于,所述获取多个版本的文字提示文件包括:
获取待检测的多个版本的文字提示文件,所述待检测的多个版本的文字提示文件均对应所述同一多媒体文件;
如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在英文字符,则将所述英文字符转换为预置词形的英文字符;或,
如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在繁体中文字符,则将所述繁体中文字符转换为简体中文字符;
将字符转换后的所述待检测的多个版本的文字提示文件获取为所述多个版本的文字提示文件。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
遍历所述第一文字提示文件中多行提示信息中的每行,
如果所述遍历到的行与任一个第二文字提示文件的至少一行之间的相似度均不大于所述第一数值,或,如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例不大于所述第二数值,则将所述遍历到的行与所述遍历到的行的下一行合并,且与所述第二文字提示文件的至少一行比较相似度;
如果合并后的行与所述第二文字提示文件的至少一行的相似度大于所述第一数值,则将所述第二文字提示文件的至少一行确定为第二目标行,将所述第二目标行所在的第二文字提示文件确定为第二目标文字提示文件;
如果所述第二目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例大于所述第二数值,则将与所述遍历到的行之间相似度最高的第二目标行确定为所述待合成的行。
6.根据权利要求1所述的方法,其特征在于,
遍历所述第一文字提示文件中多行提示信息中的每行,
所述任一个第二文字提示文件的至少一行是指:所述第二文字提示文件中未进行过相似度计算的第一行、第一行和第一行的上一行或第一行和第一行的下一行;或者,如果确定所述第一文字提示文件的第三数值的行与对应的所述第二文字提示文件的至少一行的相似度均不大于所述第一数值,则所述遍历到的行的下一行对应的所述第二文字提示文件的至少一行是指:所述第二文字提示文件中未进行过相似度计算的第二行、第二行和第二行的上一行或第二行和第二行的下一行。
7.一种获取文字提示文件的装置,其特征在于,所述装置包括:
获取模块,用于获取第一文字提示文件和至少一个第二文字提示文件,所述第一文字提示文件和所述第二文字提示文件均对应同一个多媒体文件;
确定模块,用于遍历所述第一文字提示文件中多行提示信息中的每行,如果所述遍历到的行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,则将所述第二文字提示文件的至少一行确定为第一目标行,将所述第一目标行所在的第二文字提示文件确定为第一目标文字提示文件;
如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例大于第二数值,则将与所述遍历到的行之间相似度最高的第一目标行确定为待合成的行;
合成模块,用于根据所述第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文件。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
相似度计算模块,用于遍历所述第一文字提示文件中多行提示信息中的每行、以及所述至少一个第二文字提示文件中的每个第二文字提示文件,
比较所述第一文字提示文件的所述遍历到的行与所述第二文字提示文件的至少一行所包括的字符数;
当所述第一文字提示文件的所述遍历到的行所包括的字符数不小于所述第二文字提示文件的至少一行所包括的字符数,则将所述遍历到的行所包括的字符数确定为目标字符数;或,
当所述第一文字提示文件的所述遍历到的行所包括的字符数小于所述第二文字提示文件的至少一行所包括的字符数,则将所述第二文字提示文件的至少一行所包括的字符数确定为目标字符数;
确定所述第一文字提示文件的所述遍历到的行和所述第二文字提示文件的至少一行中的相同字符数;
将所述相同字符数与所述目标字符数的比值,获取为所述遍历到的行与所述第二文字提示文件的至少一行之间的相似度。
9.根据权利要求7所述的装置,其特征在于,所述获取模块用于:
获取多个版本的文字提示文件,所述多个版本的文字提示文件均对应所述同一个多媒体文件;
确定所述多个版本的文字提示文件中,每个文字提示文件所包括的文件字符数、以及多个所述文件字符数中的中位数;
在所述多个版本的文件提示文件中,将文件字符数与所述中位数最相近的文字提示文件获取为所述第一文字提示信息,将除所述第一文字提示文件之外的文字提示文件获取为所述第二文字提示文件。
10.根据权利要求9所述的装置,其特征在于,所述获取模块用于:
获取待检测的多个版本的文字提示文件,所述待检测的多个版本的文字提示文件均对应所述同一多媒体文件;
如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在英文字符,则将所述英文字符转换为预置词形的英文字符;或,
如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在繁体中文字符,则将所述繁体中文字符转换为简体中文字符;
将字符转换后的所述待检测的多个版本的文字提示文件获取为所述多个版本的文字提示文件。
11.根据权利要求7所述的装置,其特征在于,所述确定模块还用于:
遍历所述第一文字提示文件中多行提示信息中的每行,
如果所述遍历到的行与任一个第二文字提示文件的至少一行之间的相似度均不大于所述第一数值,或,如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例不大于所述第二数值,则将所述遍历到的行与所述遍历到的行的下一行合并,且与所述第二文字提示文件的至少一行比较相似度;
如果合并后的行与所述第二文字提示文件的至少一行的相似度大于所述第一数值,则将所述第二文字提示文件的至少一行确定为第二目标行,将所述第二目标行所在的第二文字提示文件确定为第二目标文字提示文件;
如果所述第二目标文字提示文件的数量与所述至少一个第二文字提示文件的数量的比例大于所述第二数值,则将与所述遍历到的行之间相似度最高的第二目标行确定为所述待合成的行。
12.根据权利要求7所述的装置,其特征在于,
遍历所述第一文字提示文件中多行提示信息中的每行,
所述任一个第二文字提示文件的至少一行是指:所述第二文字提示文件中未进行过相似度计算的第一行、第一行和第一行的上一行或第一行和第一行的下一行;或者,如果确定所述第一文字提示文件的第三数值的行与对应的所述第二文字提示文件的至少一行的相似度均不大于所述第一数值,则所述遍历到的行的下一行对应的所述第二文字提示文件的至少一行是指:所述第二文字提示文件中未进行过相似度计算的第二行、第二行和第二行的上一行或第二行和第二行的下一行。
获取文字提示文件的方法及装置\n技术领域\n[0001] 本发明涉及网络技术领域,尤其涉及一种获取文字提示文件的方法及装置。\n背景技术\n[0002] 随着网络技术的发展,网络提供的多媒体资源越来越丰富,例如,大量的音频文件和视频文件。当然,为了充分体现多媒体文件的语音内容,网络中流传的多媒体文件通常会附带与其语音内容对应的文字提示文件,例如,音频文件往往会附带歌词文件。一般地,这些文字提示文件是由用户上传的。然而,由于这些文字提示文件是用户自己制作的,所以该文件中包括的提示信息通常会出现错误,例如,歌词文件中包括了用户的祝福语、广告语或者广告链接。\n[0003] 由于用户上传的文字提示文件中包括的提示信息通常会出现错误,会导致文字提\n示文件的准确性差,因此亟需一种准确获取文字提示文件的方法。\n发明内容\n[0004] 为了解决现有技术的问题,本发明实施例提供了一种获取文字提示文件的方法及\n装置。所述技术方案如下:\n[0005] 一方面,提供了一种获取文字提示文件的方法及装置方法,所述方法包括:\n[0006] 获取第一文字提示文件和至少一个第二文字提示文件,所述第一文字提示文件和\n所述第二文字提示文件均对应同一个多媒体文件;\n[0007] 对于所述第一文字提示文件中多行提示信息中的每行,\n[0008] 如果所述行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,\n则将所述第二文字提示文件的至少一行确定为第一目标行,将所述第一目标行所在的第二\n文字提示文件确定为第一目标文字提示文件;\n[0009] 如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数\n量的比例大于第二数值,则将与所述行之间相似度最高的第一目标行确定为待合成的行;\n[0010] 根据所述第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文\n件。\n[0011] 本发明实施例提供的技术方案带来的有益效果是:\n[0012] 在一种可能实现方式中,所述方法还包括:\n[0013] 对于所述第一文字提示文件中多行提示信息中的每行、以及所述至少一个第二文\n字提示文件中的每个第二文字提示文件,\n[0014] 比较所述第一文字提示文件的所述行与所述第二文字提示文件的至少一行所包\n括的字符数;\n[0015] 当所述第一文字提示文件的所述行所包括的字符数不小于所述第二文字提示文\n件的至少一行所包括的字符数,则将所述行所包括的字符数确定为目标字符数;或,\n[0016] 当所述第一文字提示文件的所述行所包括的字符数小于所述第二文字提示文件\n的至少一行所包括的字符数,则将所述第二文字提示文件的至少一行所包括的字符数确定\n为目标字符数;\n[0017] 确定所述第一文字提示文件的所述行和所述第二文字提示文件的至少一行中的\n相同字符数;\n[0018] 将所述相同字符数与所述目标字符数的比值,获取为所述行与所述第二文字提示\n文件的至少一行之间的相似度。\n[0019] 在一种可能实现方式中,所述获取第一文字提示文件和至少一个第二文字提示文\n件包括:\n[0020] 获取多个版本的文字提示文件,所述多个版本的文字提示文件均对应所述同一个\n多媒体文件;\n[0021] 确定所述多个版本的文字提示文件中,每个文字提示文件所包括的文件字符数、\n以及多个所述文件字符数中的中位数;\n[0022] 在所述多个版本的文件提示文件中,将文件字符数与所述中位数最相近的文字提\n示文件获取为所述第一文字提示信息,将除所述第一文字提示文件之外的文字提示文件获\n取为所述第二文字提示文件。\n[0023] 在一种可能实现方式中,所述获取多个版本的文字提示文件包括:\n[0024] 获取待检测的多个版本的文字提示文件,所述待检测的多个版本的文字提示文件\n均对应所述同一多媒体文件;\n[0025] 如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在英文字\n符,则将所述英文字符转换为预置词形的英文字符;或,\n[0026] 如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在繁体中\n文字符,则将所述繁体中文字符转换为简体中文字符;\n[0027] 将字符转换后的所述待检测的多个版本的文字提示文件获取为所述多个版本的\n文字提示文件。\n[0028] 在一种可能实现方式中,所述方法还包括:\n[0029] 对于所述第一文字提示文件中多行提示信息中的每行,\n[0030] 如果所述行与任一个第二文字提示文件的至少一行之间的相似度均不大于所述\n第一数值,或,如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件\n的数量的比例不大于所述第二数值,则将所述行与所述行的下一行合并,且与所述第二文\n字提示文件的至少一行比较相似度;\n[0031] 如果合并后的行与所述第二文字提示文件的至少一行的相似度大于所述第一数\n值,则将所述第二文字提示文件的至少一行确定为第二目标行,将所述第二目标行所在的\n第二文字提示文件确定为第二目标文字提示文件;\n[0032] 如果所述第二目标文字提示文件的数量与所述至少一个第二文字提示文件的数\n量的比例大于所述第二数值,则将与所述行之间相似度最高的第二目标行确定为所述待合\n成的行。\n[0033] 在一种可能实现方式中,对于所述第一文字提示文件中多行提示信息中的每行,\n所述任一个第二文字提示文件的至少一行是指:所述第二文字提示文件中未进行过相似度\n计算的第一行、第一行和第一行的上一行或第一行和第一行的下一行;或者,如果确定所述第一文字提示文件的第三数值的行与对应的所述第二文字提示文件的至少一行的相似度\n均不大于所述第一数值,则所述行的下一行对应的所述第二文字提示文件的至少一行是\n指:所述第二文字提示文件中未进行过相似度计算的第二行、第二行和第二行的上一行或\n第二行和第二行的下一行。\n[0034] 另一方面,提供了一种获取文字提示文件的方法及装置装置,所述装置包括:\n[0035] 获取模块,用于获取第一文字提示文件和至少一个第二文字提示文件,所述第一\n文字提示文件和所述第二文字提示文件均对应同一个多媒体文件;\n[0036] 确定模块,用于对于所述第一文字提示文件中多行提示信息中的每行,\n[0037] 如果所述行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,\n则将所述第二文字提示文件的至少一行确定为第一目标行,将所述第一目标行所在的第二\n文字提示文件确定为第一目标文字提示文件;\n[0038] 如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件的数\n量的比例大于第二数值,则将与所述行之间相似度最高的第一目标行确定为待合成的行;\n[0039] 合成模块,用于根据所述第一文字提示文件中多行提示信息对应的待合成的行,\n合成文字提示文件。\n[0040] 在一种可能实现方式中,所述装置还包括:\n[0041] 相似度计算模块,用于对于所述第一文字提示文件中多行提示信息中的每行、以\n及所述至少一个第二文字提示文件中的每个第二文字提示文件,\n[0042] 比较所述第一文字提示文件的所述行与所述第二文字提示文件的至少一行所包\n括的字符数;\n[0043] 当所述第一文字提示文件的所述行所包括的字符数不小于所述第二文字提示文\n件的至少一行所包括的字符数,则将所述行所包括的字符数确定为目标字符数;或,\n[0044] 当所述第一文字提示文件的所述行所包括的字符数小于所述第二文字提示文件\n的至少一行所包括的字符数,则将所述第二文字提示文件的至少一行所包括的字符数确定\n为目标字符数;\n[0045] 确定所述第一文字提示文件的所述行和所述第二文字提示文件的至少一行中的\n相同字符数;\n[0046] 将所述相同字符数与所述目标字符数的比值,获取为所述行与所述第二文字提示\n文件的至少一行之间的相似度。\n[0047] 在一种可能实现方式中,所述获取模块用于:\n[0048] 获取多个版本的文字提示文件,所述多个版本的文字提示文件均对应所述同一个\n多媒体文件;\n[0049] 确定所述多个版本的文字提示文件中,每个文字提示文件所包括的文件字符数、\n以及多个所述文件字符数中的中位数;\n[0050] 在所述多个版本的文件提示文件中,将文件字符数与所述中位数最相近的文字提\n示文件获取为所述第一文字提示信息,将除所述第一文字提示文件之外的文字提示文件获\n取为所述第二文字提示文件。\n[0051] 在一种可能实现方式中,所述获取模块用于:\n[0052] 获取待检测的多个版本的文字提示文件,所述待检测的多个版本的文字提示文件\n均对应所述同一多媒体文件;\n[0053] 如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在英文字\n符,则将所述英文字符转换为预置词形的英文字符;或,\n[0054] 如果检测到所述待检测的多个版本的文字提示文件所包括的字符中存在繁体中\n文字符,则将所述繁体中文字符转换为简体中文字符;\n[0055] 将字符转换后的所述待检测的多个版本的文字提示文件获取为所述多个版本的\n文字提示文件。\n[0056] 在一种可能实现方式中,所述确定模块还用于:\n[0057] 对于所述第一文字提示文件中多行提示信息中的每行,\n[0058] 如果所述行与任一个第二文字提示文件的至少一行之间的相似度均不大于所述\n第一数值,或,如果所述第一目标文字提示文件的数量与所述至少一个第二文字提示文件\n的数量的比例不大于所述第二数值,则将所述行与所述行的下一行合并,且与所述第二文\n字提示文件的至少一行比较相似度;\n[0059] 如果合并后的行与所述第二文字提示文件的至少一行的相似度大于所述第一数\n值,则将所述第二文字提示文件的至少一行确定为第二目标行,将所述第二目标行所在的\n第二文字提示文件确定为第二目标文字提示文件;\n[0060] 如果所述第二目标文字提示文件的数量与所述至少一个第二文字提示文件的数\n量的比例大于所述第二数值,则将与所述行之间相似度最高的第二目标行确定为所述待合\n成的行。\n[0061] 在一种可能实现方式中,对于所述第一文字提示文件中多行提示信息中的每行,\n所述任一个第二文字提示文件的至少一行是指:所述第二文字提示文件中未进行过相似度\n计算的第一行、第一行和第一行的上一行或第一行和第一行的下一行;或者,如果确定所述第一文字提示文件的第三数值的行与对应的所述第二文字提示文件的至少一行的相似度\n均不大于所述第一数值,则所述行的下一行对应的所述第二文字提示文件的至少一行是\n指:所述第二文字提示文件中未进行过相似度计算的第二行、第二行和第二行的上一行或\n第二行和第二行的下一行。\n附图说明\n[0062] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使\n用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他\n的附图。\n[0063] 图1是本发明实施例提供的一种获取文字提示文件的方法流程图;\n[0064] 图2是本发明实施例提供的一种获取文字提示文件的方法流程图;\n[0065] 图3是本发明实施例提供的一种提示信息示意图;\n[0066] 图4A是本发明实施例提供的一种获取文字提示文件的装置结构示意图;\n[0067] 图4B是本发明实施例提供的一种获取文字提示文件的装置结构示意图\n[0068] 图5是本发明实施例提供的一种终端结构示意图;\n[0069] 图6是本发明实施例提供的一种服务器结构示意图。\n具体实施方式\n[0070] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方\n式作进一步地详细描述。\n[0071] 图1是本发明实施例提供的一种获取文字提示文件的方法流程图。参见图1,该方\n法包括:\n[0072] 101、获取第一文字提示文件和至少一个第二文字提示文件,第一文字提示文件和\n第二文字提示文件均对应同一个多媒体文件。\n[0073] 102A、对于第一文字提示文件中多行提示信息中的每行,如果该行与任一个第二\n文字提示文件的至少一行之间的相似度大于第一数值,则将第二文字提示文件的至少一行\n确定为第一目标行,将第一目标行所在的第二文字提示文件确定为第一目标文字提示文\n件。\n[0074] 102B、如果第一目标文字提示文件的数量与至少一个第二文字提示文件的数量的\n比例大于第二数值,则将与该行之间相似度最高的第一目标行确定为待合成的行。\n[0075] 103、根据第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文\n件。\n[0076] 本发明实施例中,对于第一文字提示文件中多行提示信息的每行,当第二文字提\n示文件的至少一行与该行之间的相似度大于第一数值,且满足相似度的至少一行所在的第\n二文字提示文件的数量占至少一个第二文字提示文件的数量的比例大于第二数值时,才将\n与该行相似度最高的至少一行确定为待合成的行,并将待合成的行合成新的文字提示文\n件,使得新的文字提示文件中的每行都来源于多个文字提示文件共同确认的一行提示信\n息,从而提供了一种较为准确地获取文字提示文件的方法。\n[0077] 在一种可能实现方式中,\n[0078] 对于第一文字提示文件中多行提示信息中的每行、以及至少一个第二文字提示文\n件中的每个第二文字提示文件,\n[0079] 比较第一文字提示文件的该行与第二文字提示文件的至少一行所包括的字符数;\n[0080] 当第一文字提示文件的该行所包括的字符数不小于第二文字提示文件的至少一\n行所包括的字符数,则将该行所包括的字符数确定为目标字符数;或,\n[0081] 当第一文字提示文件的该行所包括的字符数小于第二文字提示文件的至少一行\n所包括的字符数,则将第二文字提示文件的至少一行所包括的字符数确定为目标字符数;\n[0082] 确定第一文字提示文件的该行和第二文字提示文件的至少一行中的相同字符数;\n[0083] 将相同字符数与目标字符数的比值,获取为该行与第二文字提示文件的至少一行\n之间的相似度。\n[0084] 在一种可能实现方式中,获取第一文字提示文件和至少一个第二文字提示文件包\n括:\n[0085] 获取多个版本的文字提示文件,多个版本的文字提示文件均对应同一个多媒体文\n件;\n[0086] 确定多个版本的文字提示文件中,每个文字提示文件所包括的文件字符数、以及\n多个文件字符数中的中位数;\n[0087] 在多个版本的文件提示文件中,将文件字符数与中位数最相近的文字提示文件获\n取为第一文字提示信息,将除第一文字提示文件之外的文字提示文件获取为第二文字提示\n文件。\n[0088] 在一种可能实现方式中,获取多个版本的文字提示文件包括:\n[0089] 获取待检测的多个版本的文字提示文件,待检测的多个版本的文字提示文件均对\n应同一多媒体文件;\n[0090] 如果检测到待检测的多个版本的文字提示文件所包括的字符中存在英文字符,则\n将英文字符转换为预置词形的英文字符;或,\n[0091] 如果检测到待检测的多个版本的文字提示文件所包括的字符中存在繁体中文字\n符,则将繁体中文字符转换为简体中文字符;\n[0092] 将字符转换后的待检测的多个版本的文字提示文件获取为多个版本的文字提示\n文件。\n[0093] 在一种可能实现方式中,方法还包括:\n[0094] 对于第一文字提示文件中多行提示信息中的每行,\n[0095] 如果该行与任一个第二文字提示文件的至少一行之间的相似度均不大于第一数\n值,或,如果第一目标文字提示文件的数量与至少一个第二文字提示文件的数量的比例不\n大于第二数值,则将该行与行的下一行合并,且与第二文字提示文件的至少一行比较相似\n度;\n[0096] 如果合并后的行与第二文字提示文件的至少一行的相似度大于第一数值,则将第\n二文字提示文件的至少一行确定为第二目标行,将第二目标行所在的第二文字提示文件确\n定为第二目标文字提示文件;\n[0097] 如果第二目标文字提示文件的数量与至少一个第二文字提示文件的数量的比例\n大于第二数值,则将与该行之间相似度最高的第二目标行确定为待合成的行。\n[0098] 在一种可能实现方式中,对于第一文字提示文件中多行提示信息中的每行,任一\n个第二文字提示文件的至少一行是指:第二文字提示文件中未进行过相似度计算的第一\n行、第一行和第一行的上一行或第一行和第一行的下一行;或者,如果确定第一文字提示文件的第三数值的行与对应的第二文字提示文件的至少一行的相似度均不大于第一数值,则\n行的下一行对应的第二文字提示文件的至少一行是指:第二文字提示文件中未进行过相似\n度计算的第二行、第二行和第二行的上一行或第二行和第二行的下一行。\n[0099] 在实际场景中,本发明实施例可以应用于任一能够获取到多个版本的文字提示文\n件的设备。例如,该设备可以是服务器或终端。图2是本发明实施例提供的一种获取文字提示文件的方法流程图。参见图2,该实施例具体包括:\n[0100] 201、获取多个版本的文字提示文件,该多个版本的文字提示文件均对应同一个多\n媒体文件。\n[0101] 其中,多媒体文件不限于音频文件或视频文件。文字提示文件用于指示多媒体文\n件的语音内容,例如,音频文件的歌词文件、视频文件的字幕文件。由于网络中流传的文字提示文件通常是不同用户上传的,对于同一个多媒体文件,每个用户制作的文字提示文件\n的内容和内容格式可能都不同,因此,可以获取到一个多媒体文件的多个版本的文字提示\n文件。上述内容格式不同是指:一段相同的提示信息对应文字提示文件的一行或者多行。\n[0102] 在获取多个版本的文字提示文件时,通过已知的多媒体文件标识以及文字提示文\n件格式查找与二者匹配的文字提示文件,并将查找到的这些文件获取为多个版本的文字提\n示文件。其中,多媒体文件标识不限于多媒体文件的名称、作者,文字提示文件格式不限于文字提示文件的扩展名,例如,歌词文件的扩展名一般为lrc(lyric,歌词)。\n[0103] 在该步骤中,本发明实施例对获取多个版本的文字提示文件的来源不做限定。例\n如,对于提供多媒体服务的服务器(如,提供音乐类应用、视频类应用的服务器)来说,往往已经在数据库中配置了大量的文件提示文件。又例如,在实际场景中,网络中也存在大量文字提示文件的资源。因此基于上述两种来源,获取的方式可以有以下两种:\n[0104] 第一种方式、通过服务器已配置的数据库获取多个版本的文字提示文件。\n[0105] 在该方式中,可以通过多媒体文件标识和文字提示文件格式,在服务器已配置的\n数据库中进行查找和获取过程。\n[0106] 第二种方式、从网络中获取多个版本的文字提示文件。\n[0107] 在该方式中,可以通过多媒体文件标识和文字提示文件格式,自动在网络中以网\n络爬虫或搜索引擎工具进行查找和获取过程。\n[0108] 需要说明的是,本步骤201为本发明实施例的可选步骤。在实际中,考虑获取的多\n个版本的文字提示文件所包括的字符的词形可能不同,则为了使步骤204所计算行匹配度\n时不受词形影响,提高计算的准确性,也可以通过以下步骤201A-201C获取多个版本的文字提示文件:\n[0109] 201A、获取待检测的多个版本的文字提示文件,待检测的多个版本的文字提示文\n件均对应同一多媒体文件。\n[0110] 该步骤201A中获取待检测的多个版本的文字提示文件的过程与本步骤201获取多\n个版本的文字提示文件的过程类似。\n[0111] 201B、如果检测到待检测的多个版本的文字提示文件所包括的字符中存在英文字\n符,则将英文字符转换为预置词形的英文字符;或,如果检测到待检测的多个版本的文字提示文件所包括的字符中存在繁体中文字符,则将繁体中文字符转换为简体中文字符。\n[0112] 在该步骤201B中,如果检测到英文字符,则采用英文字符的转换方法,如果检测到中文字符,则采用中文字符的转换方法。\n[0113] 对于上述存在英文字符的情况,由于英文字符的词形受语法(缩写、单复数)和时\n态的影响,两个不同词形的英文字符可能表达的意义完全相同,因此,可以将英文字符转换为一致的预置词形的英文字符,以方便后续计算行相似度的步骤。需要说明的是,需要在本地预先配置预置词形的英文字符需要与意义相同的英文字符,本发明实施例对预置词形的\n英文字符不做具体限定,以下表1为例进行说明:\n[0114] 表1\n[0115]\n意义相同的英文字符 预置词形的英文字符\n’ve,had,has have\n’s,is,are,was,were,am be\ndid,does, do\nn’t not\n[0116] 根据上述表1,以检测到“I've been living a lie,there's nothing inside”为例,则转换后的英文字符为“I,have,be,live,a,lie,there,be,nothing,inside”。\n[0117] 对于上述存在繁体中文字符的情况,由于繁体中文字符与简体中文字符实际是汉\n字不同的表达形式,因此,可以通过配置的繁简转换关系,将繁体中文字符均转换为简体中文字符。以表2为例:\n[0118] 表2\n[0119]\n繁体中文字符 简体中文字符\n壹 一\n樣 样\n淚 泪\n裡 里\n[0120] 根据上述表2,以检测到“壹樣的淚壹樣的痛”为例,则转换后的简体中文字符为\n“一样的泪一样的痛”。\n[0121] 201C、将字符转换后的待检测的多个版本的文字提示文件获取为多个版本的文字\n提示文件。\n[0122] 基于上述步骤201A和201B,完成了对待检测的多个版本的文字提示文件的预处理\n过程,避免了字符因词形(如,语法和时态)和表达形式不同导致在以下相似度计算的过程\n中产生误差,从而提高了所得到的相似度的准确性。\n[0123] 需要说明的是,本发明实施例对触发获取文字提示文件的过程的时机不做具体限\n定。例如,检测到应用中的多媒体文件播放时,可以自动进行获取过程。又例如,根据本地已下载的多媒体文件,定期进行获取过程。\n[0124] 202、确定多个版本的文字提示文件中,每个文字提示文件所包括的文件字符数、\n以及多个文件字符数中的中位数。\n[0125] 在该步骤中,计算多个版本的文字提示文件中,每个版本的文字提示文件的文件\n字符数,并从多个版本的文字提示文件的文件字符数中确定中位数。中位数是指:将多个版本的文字提示文件的文件字符数按大小排列后,如果有奇数个文件字符数,则以排列位置\n居中的文件字符数作为中位数;如果有偶数个文件字符数,则以排列位置居中的两个文件\n字符数的平均数作为中位数。以多个版本的文字提示文件的文件字符数分别为100、130、\n120、100、100为例,有5个文件字符数,则确定的中位数为120。\n[0126] 203、在多个版本的文件提示文件中,将文件字符数与中位数最相近的文字提示文\n件获取为第一文字提示文件,将除第一文字提示文件之外的文字提示文件获取为第二文字\n提示文件。\n[0127] 文件字符数与中位数最相近的文字提示文件是指:文件字符数与中位数的差的绝\n对值最小的文字提示文件。以上述步骤202对中位数的举例进行说明,文件字符数与中位数最相近的文字提示文件是文件字符数为120的文字提示文件(120与120的差的绝对值为0)。\n[0128] 发明人认识到,多个版本的文字提示文件的字符数通常不同,其原因很可能是某\n一版本的文字提示文件的缺失部分字符、或者包括了多余的字符,表明多个版本的文字提\n示文件中,字符数居中的这一版本的文字提示文件可能更接近正确版本的文字提示文件。\n而且在计算相似度的过程中,相比文件字符数较多的文字提示文件,将文件字符数与中位\n数最相近的文字提示文件作为第一文字提示文件也节约了计算资源,计算效率更高。\n[0129] 在该步骤203中,通过比较每个版本的文字提示文件的文件字符数与中位数,将文\n件字符数与中位数的差值绝对值最小的文字提示文件获取为第一提示文件,将多个版本的\n文字提示文件中除第一文字提示文件之外的文字提示文件均获取为第二文字提示文件。其\n中,第一文字提示文件用于和每个第二文字提示文件进行匹配,也即是,以第一文字提示文件作为基准,将每个第二文字提示文件均与第一文字提示文件进行比较。\n[0130] 需要说明的是,上述步骤201-203是本发明实施例的可选步骤,仅作为获取第一文\n字提示文件和至少一个第二文字提示文件的一种可能实现方式。事实上,也可以直接获取\n多个版本的文字提示文件(如上述步骤201的获取过程),并将其中任一版本的文字提示文\n件作为第一文字提示文件,将剩余的文字提示文件均作为第二文字提示文件,结合下述步\n骤204和205,也可以准确获取到文字提示文件。\n[0131] 204A、对于第一文字提示文件中多行提示信息中的每行,如果该行与任一个第二\n文字提示文件的至少一行之间的相似度大于第一数值,则将第二文字提示文件的至少一行\n确定为第一目标行,将第一目标行所在的第二文字提示文件确定为第一目标文字提示文\n件。\n[0132] 发明人认识到,对于文字提示文件来说,一个文字提示文件的一行既可以对应另\n一个文字提示文件的一行,也可以对应另一个文字提示问价内的多行,例如,歌词文件A的一行“只愿得一人心,白首不相离”对应歌词文件B的两行“只愿得一人心”和“白首不相离”,因此,为了提高计算相似度的准确性,本发明实施例将第一文字提示文件的每行均与任一\n个第二文字提示文件的至少一行之间进行计算。\n[0133] 在该步骤204A中,该行是指第一文字提示文件未进行过相似度计算的第一行。任\n一个第二文字提示文件的至少一行是指在本次获取文字提示文件的过程中,该第二文字提\n示文件中未进行过相似度计算的至少一行。以第二文字提示文件中未进行过相似度计算的\n第一行、第一行和第一行的上一行或第一行和第一行的下一行作为该第二文字提示文件的\n至少一行为例进行说明。\n[0134] 如图3所示,A为第一文字提示文件,B、C和D均为第二文字提示文件,上述的该行是指A的第二行,B的至少一行是指B的第三行、第三行和第二行、第三行和第四行,C的至少一行是指C的第二行、第二行和第一行、第二行和第三行,D的至少一行是指D的第二行、第二行和第一行、第二行和第三行。因此,将A的第二行分别与B的第三行、第三行和第二行、第三行和第四行计算相似度,且将A的第二行分别与C的第二行、第二行和第一行、第二行和第三行计算相似度,且将A的第二行分别与D的第二行、第二行和第一行、第二行和第三行计算相似度。如果A的第二行仅与B的第三行和第四行、与C的第二行之间的相似度均大于第一数值,表明B和C中均存在与A的第二行提示信息相似的提示信息,则将上述B的第三行和第四行、C的第二行均确定为第一目标行,并将B和C均确定为第一目标文字提示文件。\n[0135] 其中,第一数值用于判断第二文字提示文件中,是否存在与该行提示信息相符的\n提示信息。本发明实施例对第一数值不做具体限定,例如,第一数值为0.9。\n[0136] 对于该步骤204A计算相似度的方式,本发明实施例不做限定。例如,对于第一文字提示文件中多行提示信息中的每行、以及至少一个第二文字提示文件中的每个第二文字提\n示文件,以下述(1)~(4)的计算方式为例:\n[0137] (1)、比较第一文字提示文件的该行与第二文字提示文件的至少一行所包括的字\n符数。\n[0138] 在(1)中,通过逐一提取第一文字提示文件的该行所包括的每个字符、以及第二文\n字提示文件的至少一行所包括的每个字符,并分别计算字符数,将二者进行比较。当然,为了避免标点符号的影响,该字符数可以不计标点符号的字符数。\n[0139] 需要说明的是,某一行中相同的字符也要分别提取出来,并进行计算,以提高计算相似度的准确性。\n[0140] 接上述图3举例,假设A的第二行为“只愿得一人心白首不相离”,B的第三行为“只愿得一人心”、第四行为“白首不相离”,C的第二行为“只愿得一人心白首不相弃”,D的第二行为“只愿得一人心到白头不离不弃”。此处假设B的第二行,C的第一行、第三行,D的第一行、第三行均为“啦”,则:\n[0141] A的第二行的字符数为11,\n[0142] B的第三行和第四行的字符数为11、第三行字符数为6、第二行和第三行字符数为\n7,\n[0143] C的第二行的字符数为11、第二行和第一行的字符数为12、第二行和第三行的字符\n数为12,\n[0144] D的第二行的字符数为13、第二行和第一行的字符数为14、第二行和第三行的字符\n数为14。\n[0145] (2)、当第一文字提示文件的该行所包括的字符数不小于第二文字提示文件的至\n少一行所包括的字符数,则将该行所包括的字符数确定为目标字符数;或,当第一文字提示文件的该行所包括的字符数小于第二文字提示文件的至少一行所包括的字符数,则将第二\n文字提示文件的至少一行所包括的字符数确定为目标字符数。\n[0146] 根据(1)中的举例,对于A和B来说,3种比较情况中目标字符数均为11;\n[0147] 对于A和C来说,3种比较情况中目标字符数可以分别为11、12和12;\n[0148] 对于A和D来说,3种比较情况中目标字符数可以分别13、14和14。\n[0149] (3)、确定第一文字提示文件的行和第二文字提示文件的至少一行中的相同字符\n数。\n[0150] 在(3)中,确定存在于第一文字提示文件的行、且存在于第二文字提示文件的至少\n一行中的字符,本发明实施例对确定的方式不做具体限定,例如,以取差集的方式进行确\n定,接(2)中的举例,如果逐一提取A的第二行的字符均添加到列表a,逐一提取B的第三行的字符均添加到列表b1、第三行和第二行的字符均添加到列表b2、第三行和第四行的字符均\n添加到列表b3,且逐一提取C的第二行的字符均添加到列表c1、第二行和第一行的字符均添加到列表c2、第二行和第三行的字符均添加到列表c3,且逐一提取D的第二行的字符均添加到列表d1、第二行和第一行的字符均添加到列表d2、第二行和第三行的字符均添加到列表\nd3。将a与d1(b1、b2、b3、c1、c2、c3、d2、d3同理)中包括字符数较少的列表与另一个列表取差集,并将字符数较少的列表中的剩余字符的个数确定为相同字符数。此处将a与d1取差集,即{只,愿,得,一,人,心,白,首,不,相,离}-{只,愿,得,一,人,心,到,白,头,不,离,不,弃}={首、相},则将a中剩余字符的个数9作为相同字符数,上述举例中的相同字符数如下表3:\n[0151] 表3\n[0152]\n[0153] (4)、将相同字符数与目标字符数的比值,获取为行与第二文字提示文件的至少一\n行之间的相似度。\n[0154] 根据上述表3,得到相似度如表4:\n[0155] 表4\n[0156]\n[0157]\n[0158] 根据表4,当第一数值为0.9时,由于仅1和10/11大于0.9,则可以将B的第三行和第四行、C的第二行分别确定为第一目标行。\n[0159] 204B、如果第一目标文字提示文件的数量与至少一个第二文字提示文件的数量的\n比例大于第二数值,则将与该行之间相似度最高的第一目标行确定为待合成的行。\n[0160] 在该步骤204B中,为了提高获取待合成的行的准确性,确定第二文字提示文件中,第一目标提示文件所占的比例是否达到第二数值,即以第二文字提示文件进行“投票”的方式确定待合成的行。其中,第二数值用于判断是否存在一定数量的第二文字提示文件所包\n括的至少一行提示信息与该行提示信息相符。本发明实施例对第二数值不做限定,一般地,为了提取的第一目标行更准确,第二数值应不小于0.5。例如,第二数值可以为0.6,以表示至少一个第二文字提示文件中,有多数第二文字提示文件的提示信息(至少一个)与第一文\n字提示文件的提示信息(该行)相同。\n[0161] 因此,根据步骤204A中的举例,至少一个第二文字提示文件为B、C、D,数量为3,第一目标文字提示文件为B和C,则数量为2,则第一目标文字提示文件的数量与至少一个第二文字提示文件的数量的比例为2/3,大于0.6。由于与该行之间相似度最高的第一目标行为B的第三行和第四行(相似度为1),则可以将B的第三行和第四行确定为待合成的行。\n[0162] 204C、如果该行与任一个第二文字提示文件的至少一行之间的相似度均不大于第\n一数值,或,如果第一目标文字提示文件的数量与至少一个第二文字提示文件的数量的比\n例不大于第二数值,则将该行与该行的下一行合并,且与第二文字提示文件的至少一行比\n较相似度。\n[0163] 上述步骤204A和204B中,由于该行可能对应任一个第二文字提示文件的至少一\n行,则计算二者之间的相似度。事实上,该行和该行的下一行也可能对应任一个第二文字提示文件的一行,导致发生本步骤204C中的情况。因此,为了提高计算相似度的准确性,可以将该行与该行的下一行合并,再将合并后的行与第二文字提示文件的至少一行比较相似\n度。比较相似度的过程与上述步骤204A同理。\n[0164] 需要说明的是,由于该行的上一行理应和任一个第二文字提示文件进行过相似度\n计算,且成功确定待合成的行,此处考虑到该行的下一行即可。\n[0165] 204D、如果合并后的行与第二文字提示文件的至少一行的相似度大于第一数值,\n则将第二文字提示文件的至少一行确定为第二目标行,将第二目标行所在的第二文字提示\n文件确定为第二目标文字提示文件。\n[0166] 与上述步骤204A同理。\n[0167] 204E、如果第二目标文字提示文件的数量与至少一个第二文字提示文件的数量的\n比例大于第二数值,则将与该行之间相似度最高的第二目标行确定为待合成的行。\n[0168] 与上述步骤204B同理。\n[0169] 需要说明的是,当该行完成步骤204时,该行的下一行继续进行步骤204(如果是该\n行和该行的下一行进行步骤204C-204E,则该行下的第二行继续进行步骤204),且对应的第二文字提示文件的至少一行为:每个第二文字提示文件中未进行过相似度计算的至少一\n行。以步骤204中的举例进行说明,A的第三行继续进行步骤204,且对应的是B的第五行、C的第三行、D的第三行。\n[0170] 当然,也可能出现某一个第二文字提示文件的至少一行始终不能和该行之间的相\n似度满足第一数值的情况,例如,歌词文件1的第一行开始就是歌词,而歌词文件2的前三行均是广告,则歌词文件1与歌词文件2之间所比较的行很可能总是不同。因此,为了避免类似情况,且提高比较效率,如果确定第一文字提示文件的第三数值的行与对应的第二文字提\n示文件的至少一行的相似度均不大于第一数值,则该行的下一行对应的第二文字提示文件\n的至少一行是指:第二文字提示文件中未进行过相似度计算的第二行、第二行和第二行的\n上一行或第二行和第二行的下一行。事实上,一旦以这种方式使得该行的下一行或下面第\n数行与该第二文字提示文件的至少一行的匹配度大于第一数值,则下一次比较相似度时,\n可以再次以第二文字提示文件中未进行过相似度计算的第一行、第一行和第一行的上一行\n或第一行和第一行的下一行与第一文字提示文件的当前行进行比较。\n[0171] 其中,本发明实施例对第三数值不做具体限定。例如,第三数值为3。以上述步骤\n204的举例来说,如果A的第二行与D的第二行、第二行和第一行、第二行和第三行,A的第三行与D的第三行、第二行和第三行、第三行和第四行,A的第四行与D的第四行、第四行和第三行、第四行和第五行之间的相似度均不大于第一数值,则A的第五行对应的D的至少一行可\n以是D的第六行、第五行和第六行、第六行和第七行。\n[0172] 205、根据第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文\n件。\n[0173] 基于上述步骤204,可以得到第一文字提示文件中每行提示信息对应的待合成的\n行,因此,可以在该步骤205中,将每个待合成的行按行排列顺序合成正确的文字提示文件。\n[0174] 相关技术中,由于用户上传的文字提示文件中包括的提示信息通常会出现错误,\n会导致文字提示文件的准确性差,因此亟需一种准确获取文字提示文件的方法。\n[0175] 本发明实施例中,对于第一文字提示文件中多行提示信息的每行,当第二文字提\n示文件的至少一行与该行之间的相似度大于第一数值,且满足相似度的至少一行所在的第\n二文字提示文件的数量占至少一个第二文字提示文件的数量的比例大于第二数值时,才将\n与该行相似度最高的至少一行确定为待合成的行,并将待合成的行合成新的文字提示文\n件,使得新的文字提示文件中的每行都来源于多个文字提示文件共同确认的一行提示信\n息,从而提供了一种较为准确地获取文字提示文件的方法。\n[0176] 另外,通过在第一文字提示文件的该行与第二文字提示文件的至少一行中,确定\n二者中所包括字符数较少的一者的字符数为目标字符数,并以二者所包括的相同字符数占\n目标字符数的比例作为相似度,从而提供了计算行之间相似度的具体方法。\n[0177] 另外,通过获取多个版本的文字提示文件,并确定每个文字提示文件所包括的文\n件字符数,以及多个文件字符数的中位数,将文件字符数与中位数最接近的文字提示文件\n确定为第一提示文件,将除第一文字提示文件之外的文字提示文件获取为第二文字提示文\n件,由于某一版本的文字提示文件可能缺失部分字符、或者包括了多余的字符,因此多个版本的文字提示文件中,字符数居中的这一版本的文字提示文件往往更接近正确版本的文字\n提示文件,具有一定的参考性,进而将其作为第一文字提示文件,将第二文字提示文件与它进行相似度比较,最终获取到的文字提示文件的准确性更高。\n[0178] 另外,通过获取待检测的多个版本的文字提示文件,并检测其中是否存在英文字\n符或中文字符,提供了将不同字符的英文字符统一转换为预置词形的英文字符的方法,也\n提供了将繁体中文字符转换为简体中文字符的方法,使得进行相似度计算时不受到字符形\n式的影响,所计算的相似度更加准确。\n[0179] 另外,通过将该行与该行的下一行合并,再与任一个第二文字提示文件的至少一\n行比较相似度,从而获取到待合成的行,解决了对于第一文字提示文件中的每行,没有成功从对应的至少一个第二文字提示文件中获取到待合成的行的情况,也提供了另一种获取待\n合成的行的方式。\n[0180] 另外,通过将第一文字提示文件的每行与第二文字提示文件的至少一行进行比\n较,考虑了该行提示信息对应另一文字提示文件中的多行提示信息的情况,使得比较相似\n度的过程更加全面。而且,如果第一文字提示文件的第三数值的行与对应的第二文字提示\n文件的至少一行的相似度均不大于第一数值,说明该第二文字提示文件相比第一文字提示\n文件很可能在前面多了数行提示信息,那么提供跳行比较的机制,在下一次比较相似度时,将第二文字提示文件中未进行过相似度计算的第二行、第二行和第二行的上一行或第二行\n和第二行的下一行作为该第二文字提示文件的至少一行,以增加比较效率,提高比较的成\n功率。\n[0181] 图4A是本发明实施例提供的一种获取文字提示文件的装置示意图。参见图4A,该\n装置具体包括:\n[0182] 获取模块401,用于获取第一文字提示文件和至少一个第二文字提示文件,第一文\n字提示文件和第二文字提示文件均对应同一个多媒体文件;\n[0183] 确定模块402,用于对于第一文字提示文件中多行提示信息中的每行,\n[0184] 如果该行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,则\n将第二文字提示文件的至少一行确定为第一目标行,将第一目标行所在的第二文字提示文\n件确定为第一目标文字提示文件;\n[0185] 如果第一目标文字提示文件的数量与至少一个第二文字提示文件的数量的比例\n大于第二数值,则将与该行之间相似度最高的第一目标行确定为待合成的行;\n[0186] 合成模块403,用于根据第一文字提示文件中多行提示信息对应的待合成的行,合\n成文字提示文件。\n[0187] 本发明实施例中,对于第一文字提示文件中多行提示信息的每行,当第二文字提\n示文件的至少一行与该行之间的相似度大于第一数值,且满足相似度的至少一行所在的第\n二文字提示文件的数量占至少一个第二文字提示文件的数量的比例大于第二数值时,才将\n与该行相似度最高的至少一行确定为待合成的行,并将待合成的行合成新的文字提示文\n件,使得新的文字提示文件中的每行都来源于多个文字提示文件共同确认的一行提示信\n息,从而提供了一种较为准确地获取文字提示文件的装置。\n[0188] 在一种可能实现方式中,基于图4A所示的装置组成,参见图4B,该装置还包括:\n[0189] 相似度计算模块404,用于对于第一文字提示文件中多行提示信息中的每行、以及\n至少一个第二文字提示文件中的每个第二文字提示文件,\n[0190] 比较第一文字提示文件的该行与第二文字提示文件的至少一行所包括的字符数;\n[0191] 当第一文字提示文件的该行所包括的字符数不小于第二文字提示文件的至少一\n行所包括的字符数,则将该行所包括的字符数确定为目标字符数;或,\n[0192] 当第一文字提示文件的该行所包括的字符数小于第二文字提示文件的至少一行\n所包括的字符数,则将第二文字提示文件的至少一行所包括的字符数确定为目标字符数;\n[0193] 确定第一文字提示文件的该行和第二文字提示文件的至少一行中的相同字符数;\n[0194] 将相同字符数与目标字符数的比值,获取为该行与第二文字提示文件的至少一行\n之间的相似度。\n[0195] 在一种可能实现方式中,获取模块401用于:\n[0196] 获取多个版本的文字提示文件,多个版本的文字提示文件均对应同一个多媒体文\n件;\n[0197] 确定多个版本的文字提示文件中,每个文字提示文件所包括的文件字符数、以及\n多个文件字符数中的中位数;\n[0198] 在多个版本的文件提示文件中,将文件字符数与中位数最相近的文字提示文件获\n取为第一文字提示信息,将除第一文字提示文件之外的文字提示文件获取为第二文字提示\n文件。\n[0199] 在一种可能实现方式中,获取模块401用于:\n[0200] 获取待检测的多个版本的文字提示文件,待检测的多个版本的文字提示文件均对\n应同一多媒体文件;\n[0201] 如果检测到待检测的多个版本的文字提示文件所包括的字符中存在英文字符,则\n将英文字符转换为预置词形的英文字符;或,\n[0202] 如果检测到待检测的多个版本的文字提示文件所包括的字符中存在繁体中文字\n符,则将繁体中文字符转换为简体中文字符;\n[0203] 将字符转换后的待检测的多个版本的文字提示文件获取为多个版本的文字提示\n文件。\n[0204] 在一种可能实现方式中,确定模块402还用于:\n[0205] 对于第一文字提示文件中多行提示信息中的每行,\n[0206] 如果该行与任一个第二文字提示文件的至少一行之间的相似度均不大于第一数\n值,或,如果第一目标文字提示文件的数量与至少一个第二文字提示文件的数量的比例不\n大于第二数值,则将行与行的下一行合并,且与第二文字提示文件的至少一行比较相似度;\n[0207] 如果合并后的行与第二文字提示文件的至少一行的相似度大于第一数值,则将第\n二文字提示文件的至少一行确定为第二目标行,将第二目标行所在的第二文字提示文件确\n定为第二目标文字提示文件;\n[0208] 如果第二目标文字提示文件的数量与至少一个第二文字提示文件的数量的比例\n大于第二数值,则将与该行之间相似度最高的第二目标行确定为待合成的行。\n[0209] 在一种可能实现方式中,对于第一文字提示文件中多行提示信息中的每行,任一\n个第二文字提示文件的至少一行是指:第二文字提示文件中未进行过相似度计算的第一\n行、第一行和第一行的上一行或第一行和第一行的下一行;或者,如果确定第一文字提示文件的第三数值的行与对应的第二文字提示文件的至少一行的相似度均不大于第一数值,则\n行的下一行对应的第二文字提示文件的至少一行是指:第二文字提示文件中未进行过相似\n度计算的第二行、第二行和第二行的上一行或第二行和第二行的下一行。\n[0210] 上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再\n一一赘述。\n[0211] 需要说明的是:上述实施例提供的获取文字提示文件的装置在获取文字提示文件\n时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述\n的全部或者部分功能。另外,上述实施例提供的获取文字提示文件的装置与获取文字提示\n文件的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。\n[0212] 图5是本发明实施例提供的一种终端结构示意图,该终端可以用于执行上述各个\n实施例中获取文字提示文件的方法。参见图5,该终端500包括:\n[0213] 终端500可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上计\n算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(Wireless Fidelity,无线保真)模块170、包括有一个或者一个以上处理核心的处理\n器180、以及电源190等部件。本领域技术人员可以理解,图5中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布\n置。其中:\n[0214] RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的\n下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband Code Division Multiple \nAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short \nMessaging Service,短消息服务)等。\n[0215] 存储器120可用于存储软件程序以及模块,处理器180通过运行存储在存储器120\n的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端500的使用所创建的数\n据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。\n相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器\n120的访问。\n[0216] 输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能\n控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表\n面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。\n[0217] 显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端500的\n各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。\n显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板\n141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型\n在显示面板141上提供相应的视觉输出。虽然在图5中,触敏表面131与显示面板141是作为\n两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。\n[0218] 终端500还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感\n器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端500移动到耳边时,关闭显示\n面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比\n如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。\n[0219] 音频电路160、扬声器161,传声器162可提供用户与终端500之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终\n端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端500的通信。\n[0220] WiFi属于短距离无线传输技术,终端500通过WiFi模块170可以帮助用户收发电子\n邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块170,但是可以理解的是,其并不属于终端500的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。\n[0221] 处理器180是终端500的控制中心,利用各种接口和线路连接整个手机的各个部\n分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端500的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器\n180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。\n[0222] 终端500还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电\n源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。\n[0223] 尽管未示出,终端500还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理\n器执行。所述一个或者一个以上程序包含用于执行以下操作的指令:\n[0224] 获取第一文字提示文件和至少一个第二文字提示文件,第一文字提示文件和第二\n文字提示文件均对应同一个多媒体文件;对于第一文字提示文件中多行提示信息中的每\n行,如果该行与任一个第二文字提示文件的至少一行之间的相似度大于第一数值,则将第\n二文字提示文件的至少一行确定为第一目标行,将第一目标行所在的第二文字提示文件确\n定为第一目标文字提示文件;如果第一目标文字提示文件的数量与至少一个第二文字提示\n文件的数量的比例大于第二数值,则将与该行之间相似度最高的第一目标行确定为待合成\n的行;根据第一文字提示文件中多行提示信息对应的待合成的行,合成文字提示文件。\n[0225] 图6是本发明实施例提供的一种服务器结构示意图。参照图6,装置600包括处理组\n件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理部件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一\n个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述获取文字提示文件的方法。\n[0226] 装置600还可以包括一个电源组件626被配置为执行装置600的电源管理,一个有\n线或无线网络接口650被配置为将装置600连接到网络,和一个输入输出(I/O)接口658。装\n置600可以操作基于存储在存储器632的操作系统,例如Windows ServerTM,Mac OS XTM,\nUnixTM,LinuxTM,FreeBSDTM或类似。\n[0227] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件\n来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读\n存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。\n[0228] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和\n原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
法律信息
- 2018-08-03
- 2018-01-19
著录事项变更
申请人由广州酷狗计算机科技有限公司变更为广州酷狗计算机科技有限公司
地址由510000 广东省广州市天河区科韵路16号B1栋13F变更为510660 广东省广州市天河区黄埔大道中315号自编1-17
- 2017-04-19
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201610951816.1
申请日: 2016.10.26
- 2017-03-22
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |