著录项信息
专利名称 | 将声音和人工转录文本进行同步的系统和方法 |
申请号 | CN200680031279.3 | 申请日期 | 2006-08-18 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2008-08-27 | 公开/公告号 | CN101253549 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G10L15/26 | IPC分类号 | G;1;0;L;1;5;/;2;6;;;G;0;6;F;1;7;/;2;4查看分类表>
|
申请人 | 皇家飞利浦电子股份有限公司 | 申请人地址 | 奥地利维也纳
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 微差通信奥地利有限责任公司 | 当前权利人 | 微差通信奥地利有限责任公司 |
发明人 | A·纽巴彻;M·帕佩 |
代理机构 | 中国专利代理(香港)有限公司 | 代理人 | 李亚非;谭祐祥 |
摘要
一种将声音数据和文本数据进行同步的方法,所述文本数据是通过在声音数据的回放过程中,对所述声音数据进行人工转录而获得的。提出的方法包括重复执行如下步骤:查询所述声音数据和所述文本数据,以便获得分别对应于当前播放的声音基准数据的当前时间位置和当前转录的文本基准数据,通过应用与转录延迟相一致的时间校正值来校正所述当前时间位置,并生成至少一个关联基准数据,其中所述关联基准数据指示所述经校正的时间位置与所述当前转录的文本基准数据之间的同步关联。由此,所提出的方法与声音数据的人工转录相联系实现了对声音和文本进行成本有效的同步。
1.一种将声音数据(SD)和文本数据(TD)进行同步的方法,所述文本数据(TD)是通过在所述声音数据(SD)的回放期间,对所述声音数据(SD)进行人工转录而获得的,包括重复执行如下步骤:
查询所述声音数据(SD)和所述文本数据(TD),以便获得对应于当前播放的声音基准数据(SDi)的当前时间位置和当前转录的文本基准数据(TDj),
通过应用与转录延迟相一致的时间校正值(L)来校正所述当前时间位置,以及生成至少一个关联基准数据,其中所述关联基准数据指示经校正的当前时间位置与所述当前转录的文本基准数据(TDj)之间的同步关联,
利用对应于所述文本数据(TD)中标点的所述声音数据(SD)中的暂停,生成在所述声音数据(SD)中对应于与语音相关信息的时间位置(TPX’)和相关文本数据(TDj)之间的附加关联数据。
2.根据权利要求1的方法,其特征在于,所述关联基准数据与所述文本数据(TD)一起存储在共同的同步文本数据文件(TDF)中。
3.根据权利要求1的方法,其特征在于,所述关联基准数据与所述文本数据(TD)相分离地存储在同步文件中。
4.一种对声音数据(SD)和相应的文本数据(TD)进行同步回放的方法,包括重复执行如下步骤:
在给定时间点(t)上回放相应的声音基准数据(SDi),并且
基本上在所述给定时间点(t)上显示与该声音基准数据(SDi)相关联的文本基准数据(TDj),
其特征在于,所述文本基准数据(TDj)是通过使用根据权利要求1的方法生成的关联基准数据和附加关联数据而获得的。
5.根据权利要求4的方法,其特征在于,对应于所述声音数据(SD)中与特有语音相关信息的文本基准数据(TDj),基本上显示在声音数据(SD)满足预先确定的准则的时间点(t)上,其中所述准则指示与所述特有语音相关的信息。
6.根据权利要求5的方法,其特征在于,所述声音数据(SD)中与特有语音相关信息包括对应于所述文本数据(TD)中标点的所述声音数据(SD)中的暂停。
7.一种将声音数据(SD)和文本数据(TD)进行同步的系统(1),包括:
声音输入装置(2),用于提供所述声音数据(SD),
用于存储所述声音数据(SD)的存储装置(3),
用于向用户回放所述声音数据(SD)的回放装置(4),
用于通过提供所述文本数据(TD)对所述声音数据(SD)进行人工转录的文本输入装置(5),和
用于生成关联数据的数据处理装置(6),所述关联数据指示所述声音数据(SD)与所述文本数据(TD)之间的同步关联,
所述数据处理装置(6)包括:
查询装置(8),用于重复查询所述声音数据(SD)和所述文本数据(TD),以便获得对应于当前播放的声音基准数据(SDi)的当前时间位置和当前输入的文本基准数据(TDj),校正装置(9),用于通过应用与转录延迟一致的时间校正值(L)来校正所述当前时间位置,和
用于生成关联基准数据的数据生成装置(10),所述关联基准数据指示经校正的当前时间位置与所述当前输入的文本基准数据(TDj)之间的同步关联,
所述数据处理装置(6)适用于识别所述声音数据(SD)中对应于所述文本数据(TD)中标点的暂停,并且生成所述声音数据(SD)中相应时间位置与相关文本数据(TDj)之间的附加关联数据。
8.根据权利要求7的系统,其特征在于,所述声音数据(SD)是人语音形式的。
9.根据权利要求7的系统,其特征在于,所述关联基准数据与所述文本数据(TD)一起存储在共同的同步文本数据文件(TDF)中。
10.根据权利要求7的系统,其特征在于,所述关联基准数据与所述文本数据(TD)相分离地存储在同步文件中。
11.一种对声音数据(SD)和相应的文本数据(TD)进行同步回放的系统(1),包括:
用于在给定时间点(t)上回放相应声音基准数据(SDi)的回放装置(4),和用于基本上在所述给定时间点(t)上显示与该声音基准数据(SDi)相关联的文本基准数据(TDj)的显示装置(14),
其特征在于,根据权利要求7的系统用于获得所述相关联的文本基准数据。
12.根据权利要求11的系统,其特征在于,所述数据处理装置(6)适用于识别所述声音数据(SD)中与特有语音相关的信息,并且用于命令所述显示装置(14)基本上在所述声音数据(SD)满足预先确定的准则的时间点(t)上,显示对应于与所述特有语音相关的信息的相应文本基准数据(TDj),其中所述准则指示与所述特有语音相关的信息。
13.根据权利要求12的系统,其特征在于,所述声音数据(SD)中与特有语音相关信息包括对应于所述文本数据(TD)中标点的所述声音数据(SD)中的暂停。
将声音和人工转录文本进行同步的系统和方法\n技术领域\n[0001] 本发明总体涉及声音的人工转录(transcription),尤其涉及人语音的人工转录。更特殊地,本发明涉及例如为了校正的目的,考虑到随后对声音和文本数据的同步回放(playback),将声音数据和文本数据进行同步,该文本数据是通过在声音数据的回放过程中,对声音数据进行人工转录而获得的。\n背景技术\n[0002] 当声音,例如人的语音,通过语音识别系统自动转录为文本时,通常可以容易地将下文称为文本基准数据(datum)的每个单词或甚至更小的词汇子单元与相应的声音片断(也称作声音基准数据)关联起来,例如通过自动地将从声音数据中导出的定时数据包括到由语音识别系统生成的文本文件中。该定时数据然后可用于直接访问对应于给定声音基准数据的文本基准数据,反之亦然。尤其在通常已知的诸如同步回放的特征中需要这种关联,其中将文本片断(文本基准数据),诸如对应于当前播放的声音片断的单词或音节,例如通过显示器上对所述的文本片断进行高亮显示而显示给用户。这个特征对于校正转录以及回顾(review)和质量保障是尤其有用的,其中所述转录是通过语音识别建立的。\n[0003] 然而,当声音是人工转录时,由于现今语音识别系统众所周知的不完备而经常是这种情况,例如,当处理较差质量的声音数据或非常专业的行话时,这种关联通常不能够自动得到。因此,现有技术中,必须通过用几毫秒级别的精度来标记声音片断,并随后进入相应文本来人工完成对文本和声音的同步。这种方法十分耗时,因此在花费方面存在很大问题。然而,它构成了一种用于进一步分析的转录的重要特征,例如在心理学、营销学等领域中。Bainbridge,D.和Cunningham,S.J.在“making oral history accessible over the World Wide Web”,History and Computing,Vol.10,no.1-3,pp.73-81(1998)中发表了相似的方法。\n[0004] 因此,本领域需要能够成本高效地将声音和文本进行同步,其中所述文本与声音数据的人工转录相联系。\n[0005] 本发明的目标是提供一种将声音数据和文本数据进行同步的方法,所述文本数据是通过在声音数据的回放过程中,对所述声音数据进行人工转录而获得的,该方法消除了上述缺点。本发明的另一个目标是提供一种对声音数据和相应文本数据进行同步回放的方法,其包括了将声音数据和文本数据进行同步的独创性方法,因此消除了现有技术中同步回放专门保留给使用语音识别的系统的共有缺陷。并且,本发明为了实现其目标,必须提供一种适用于将上述相应独创性方法转换为动作(action)的系统。\n发明内容\n[0006] 根据本发明的第一方面,提供了一种将声音数据和文本数据进行同步的方法,所述文本数据是通过在声音数据的回放过程中,对所述声音数据进行人工转录而获得的,该方法包括重复地执行如下步骤:查询(query)所述声音数据和所述文本数据,以便获得对应于当前播放的声音基准数据的当前时间位置和当前转录的文本基准数据,通过应用与转录延迟相一致的时间校正值来校正所述当前时间位置,并生成至少一个关联基准数据,其中所述关联基准数据指示所述经校正的时间位置与所述当前转录的文本基准数据之间的同步关联。\n[0007] 这里和后面的说明书中,术语“声音数据”是指已经被记录并随后存储的音频数据,例如人的语音,优选地被存储为适当数字数据格式的数据文件,以便于用户,特别是秘书进行随后的人工转录(转录),秘书收听可从声音数据重新生成的声音,并且通常通过键盘,以字符流的形式输入(键入)对应于声音的文本。在该上下文中,术语“声音基准数据”是指声音数据的片断,最小的可能的声音基准数据是单个声音数据位。\n[0008] 相应地,术语“文本数据”是指在转录会话期间输入的文本,即一连串字符,其优选地还被存储为适当数字数据格式的数据文件。在该上下文中,术语“文本基准数据”是指文本数据的片断,最小的可能的文本基准数据显然是单个的文本数据位,即单个的文本字符。\n[0009] 术语“回放”是指生成对应于任意一种上述类型数据的相应输出的行为,例如,通过适当的输出系统,例如声卡和相关联的扬声器系统,或者通过在显示屏上显示对应于文本数据的文本,从声音数据生成用户可察觉的听得见的物理声音。在声音数据的回放期间,要被播放的给定声音基准数据对应于声音数据中的“时间位置”,即从其中导出的音频流。\n例如,给定声音基准数据的时间位置可以指示所述声音基准数据从音频流的开头被测量的开始时间。\n[0010] 在本发明的范围内,术语“重复地”是指基本上按规律执行多次的动作,例如重复频率为1到10Hz(每0.1-1s查询一次)。例如,分别“查询”声音数据和文本数据是在本发明的范围内重复执行的示例性动作,即在转录会话期间频繁寻址声音数据和文本数据,以便分别获得当前的音频时间位置和最近输入的文本基准数据作为查询值,其中文本基准数据的实际长度取决于查询频率。\n[0011] 并且在本上下文中,术语“校正”是指通过应用预先确定的校正值来改变查询值,例如,从时间位置查询值中减去延迟时间值来获得经校正的时间位置。\n[0012] 最后,本发明说明书中的术语“关联基准数据”是指数据片段,其包含/建立起声音和文本之间的关联。这种基准数据优选地包含关于声音时间位置的信息,在该声音时间位置上,特定的文本基准数据应当已经由用户输入,以便与声音数据完全匹配,从而生成例如词汇或任何连续字符的所述文本基准数据和声音数据之间的同步关联。\n[0013] 以这种方式,本发明的方法自动实现声音正在被人工转录时的声音和文本之间的紧密关联。换句话说,在人工转录期间,根据本发明,基于在给定时刻上输入的文本片断与播放的声音在定时方面紧密相关的假设,可以在已经回放的声音和当前正在输入例如键入的文本之间产生关联。播放的声音和输入的文本之间的这种定时关系由转录延迟主导性地支配,其中所述转录延迟是由于转录的有限反应速度造成的。\n[0014] 通过预先确定转录延迟,即时间校正值,根据用户,即直接根据录音打字的打字员(transcriptionist)的转录技术和/或打字速度,本独创性的方法可以被容易地定制,以便为任何一种使用该方法来人工描述声音的用户提供满意的结果。\n[0015] 有益地,时间校正值采用时间延迟(即,持续时间)的形式,该时间延迟对应于用户在输入转录文本时在声音之后的“滞后”。这种延迟时间可以通过在转录会话之前向用户回放已知的声音数据,并接下来测量并统计地处理用户输入相应文本数据所花费的时间而容易地确定。结果可以利用本独创性的方法,在系统中存储为便于今后利用的用户简档。作为上述需要用户登记的方法的替换,可以设想,允许在同步回放期间进行延迟调整和/或允许在转录部分的开头和结尾处用户对该关联进行人工校正,同时为其余部分插入延迟。\n[0016] 为了进一步改善声音和文本之间的同步性,根据本独创性方法特征的进一步发展,所述声音数据中与特有语音相关的信息,特别是对应于所述文本数据中标点的所述声音数据中的暂停,被用于生成在所述声音数据中对应于所述语音相关信息的时间位置和相关文本数据之间的附加关联数据。这种特有特征的典型例子可以是在句子末尾的语音暂停,其对应于转录文本中的句号或其它标点符号。在本独创性方法的优选实施例中,所述方法是转录延迟计算逻辑的一部分:声音数据中的暂停被用于调整转录延迟,并基于此,计算与相应文本相关的校正的声音时间位置。\n[0017] 根据本独创性方法的变形,所述关联数据与所述文本数据一起存储在共同的同步文本数据文件中。以这种方式,对有益地采取时间戳(即指示声音数据中时间位置的编号)形式的关联数据(例如从相应声音数据文件的开头开始测量的流逝时间)的存储,与通过语音识别器生成的转录类似地实现,从而在原理上,已知的同步回放方法/系统可被用于提供相关联的声音-文本数据的同步回放,其中所述相关联的声音-文本数据根据本独创性方法而获得。\n[0018] 可替换地,如果适于进一步的数据处理,所述关联数据可与所述文本数据相分离地存储在同步文件中。\n[0019] 根据本发明的第二方面,提供了一种对声音数据和相应的文本数据进行同步回放的方法,包括重复执行如下步骤:在给定时间点上回放相应的声音基准数据,并且基本上在所述同样的时间点上显示与该声音基准数据相关联的文本基准数据,所述相关联的文本基准数据根据关联数据获得,其中所述关联数据根据本独创性同步方法的上述任意一种变形获得。以这种方式,即使是当例如为了校正目的而人工转录声音时,也可容易实现同步回放。\n[0020] 根据本发明的第三方面,提供了一种将声音数据和文本数据进行同步的系统,包括:\n[0021] 声音输入装置,用于提供所述声音数据,特别是人语音形式的声音数据,[0022] 用于存储所述声音数据的存储装置,\n[0023] 用于向用户回放所述声音数据的回放装置,\n[0024] 用于通过输入所述文本数据,对所述声音数据进行人工转录的输入装置,[0025] 用于生成关联数据的数据处理装置,所述关联数据指示所述声音数据与所述文本数据之间的同步关联,所述数据处理装置包括:\n[0026] 查询装置,用于重复查询所述声音数据和所述文本数据,以便获得对应于当前播放的声音基准数据的当前时间位置和当前输入的文本基准数据,\n[0027] 校正装置,用于通过应用与转录延迟一致的时间校正值来校正所述当前时间位置,\n[0028] 用于生成关联基准数据的数据生成装置,所述关联基准数据指示所述经校正的时间位置与所述当前输入的文本基准数据之间的同步关联。\n[0029] 这种系统特别适合于将根据上述本发明第一方面的独创性方法转换为动作。\n[0030] 在本独创性系统的另一个实施例中,所述数据处理装置适用于识别所述声音数据中与特有语音相关的信息,特别是在对应于所述文本数据中标点的所述声音数据中暂停,并改善与所述声音数据和相关文本数据中的相应时间位置相一致的时间校正值。这有助于进一步改善声音与文本之间的同步,例如通过生成附加的关联基准数据,其中该附加的关联基准数据将段落末尾的语音暂停与在其时间邻近点上输入的相应标点符号(例如句号或逗号)链接起来。\n[0031] 为了与已知的同步回放实现相兼容,本独创性系统可以被设计为,与在已知系统中的通常情况一样,使得所述关联数据与所述文本数据一起存储在共同的同步的文本数据文件中,这依赖于用于生成文本数据的语音识别。由于其允许所识别的和转录的文本混合在单个文档中,因此这是特别有益的,例如,如果语音识别器不能处理更长的因而必须人工转录的声音数据部分的话。然而,为了实现完全灵活性,所述关联数据可替换地可与所述文本数据相分离地存储在同步文件中。\n[0032] 根据本发明的第四方面,提供了一种对声音数据和相应文本数据进行同步回放的系统,包括用于在给定时间点上回放相应的声音基准数据的回放装置,和用于基本上在所述同样的时间点上显示与该声音基准数据相关联的文本基准数据的显示装置,其中本系统进一步包括根据对声音数据和文本数据进行同步的本独创性系统的上述任意一种变形的子系统。以这种方式,即使是当例如为了校正目的而人工转录声音时,根据本发明所述第四方面的独创性系统也能够容易地结合同步回放特征。\n[0033] 根据本发明所述第四方面的同步回放系统对于将声音转录为文本特别有用,特别是对于医学转录来说。\n[0034] 更普遍地,根据本发明所述第四方面的同步回放系统作为文档生成工作流程中的校正阶段部分特别有用,后者至少包括口授(dictation)、语音识别、和校正阶段,可选地包括进一步的回顾/质量保证阶段。\n[0035] 本发明的进一步优点和特征可以根据下面结合附图对优选实施例进行的描述而得到收集。上述和下面的特征可以根据本发明单独地或结合地使用。提到的实施例不被理解为详尽的列举,而是理解为关于本发明根本概念的例子。\n[0036] 附图的简要说明\n[0037] 图1是根据本发明,对声音数据和相应文本数据进行同步回放的系统的示意性框图;\n[0038] 图2是示出对声音数据和文本数据进行同步的独创性方法的图;\n[0039] 图3是根据本发明,示例性的共同同步文本数据文件,其中关联数据与文本数据一起存储;\n[0040] 图4是进一步示出对声音数据和文本数据进行同步的独创性方法的流程图;\n[0041] 图5是示出对声音数据和相应文本数据进行同步回放的独创性方法的流程图。\n[0042] 详细说明\n[0043] 下面对本发明的详细说明参照附图。同样的附图标记可以用在不同的附图中,用于标识同样的或相似的元素。\n[0044] 图1示出了根据本发明,对声音数据和相应文本数据进行同步回放的系统1的框图。对声音数据和文本数据进行同步的系统1包括声音输入装置2,用于提供所述声音数据,特别是人语音形式的声音数据,例如以与任何必要的驱动电子设备一起的麦克风的形式。然而,声音数据还可以以不同方式提供,例如在诸如CD-ROM的便携式数据载体上或通过互联网,在这种情况下输入装置2可以采用相应的适当形式,即分别为CD-ROM驱动和互联网连接装置。系统1进一步包括存储装置3,用于将所述声音数据SD存储为任意适当数据格式的声音数据文件SDF。正如本领域技术人员所公知的,基于特定的系统要求,存储装置3既可以是易失性的类型,也可以是非易失性的类型。本独创性系统1还包括回放装置\n4,用于向用户回放所述声音数据,其在所示实施例中采用与任意需要的驱动电子设备一起的音频扬声器系统的形式。为了所述声音数据的人工转录,根据本发明的系统1进一步包括键盘形式的文本输入装置5,通过该文本输入装置5,用户可以提供所述文本数据,该用户即直接根据录音打字的打字员,他收听由声音数据导出的音频信号,并利用键盘提供的字符打出相应的文本。\n[0045] 为了能够执行上述定义的特定动作,上述系统的所有部件2-5都连接到形式为包括至少一个定时器单元6a的数据处理装置6的中央控制单元,例如微处理器。以这种方式,本独创性系统1优选地被设计为基于PC的系统7,如图1中的点画线框所示。上述系统部件2-5因此采用通过适当接口(没有具体示出)连接到PC系统7的外围单元的形式。还是如图1所示,存储装置3相对于PC系统7,既可以被安排为是内部的,也可以被安排为是外部的。\n[0046] 根据本发明的基本概念,为了生成指示所述声音数据和所述文本数据之间同步关联的关联数据,所述数据处理装置6包括查询装置8,用于重复地查询所述声音数据SD和所述文本数据,以便获得对应于当前所播放的声音基准数据的当前时间位置和当前所输入的文本基准数据。并且,数据处理装置6包括校正装置9,用于通过应用与转录延迟相一致的时间校正值来校正所述当前时间位置,还包括数据生成装置10,用于生成指示所述校正的时间位置与所述当前输入的文本基准数据之间同步关联的关联基准数据。数据处理装置6的上述部件8-10优选地以软件形式实现。在该上下文中,参照图1的数据处理装置进一步包括程序执行装置11,用于执行和协调至少该软件部件8-10。到此为止所描述的本独创性系统1的操作将在下面结合图2进行详细解释。\n[0047] 通过输入装置5输入的文本数据TD还可以存储在存储装置3中,优选地与所述关联数据(参见下面)一起,存储为文本数据文件TDF。下面将结合图3解释示例性的文件格式。并且,系统1还包括数据缓冲器12,特别用于在它们在所述存储装置3中的存储之前,缓冲所输入的文本数据TD和/或时间位置数据(与图2相比),还有语音识别装置13,其被安排为数据处理装置6内的软件模块,其用途将在下面变得清楚明白。\n[0048] 为了对声音数据SD和相应文本数据TD进行同步回放,除了用于回放声音数据SD(即给定时间点上的相应声音基准数据)的音频回放装置4,系统1还包括与数据处理装置6相连的显示装置14,用于显示与声音基准数据相关联的文本基准数据,其在基本相同的时间点上进行回放,由此实现所述的同步回放。所述显示装置14有益地采用标准PC显示屏的形式,通过简单地在屏幕上书写或者通过高亮显示等,能够在显示屏上显示所述文本基准数据。以这种方式,通过连续回放声音数据文件的全部内容,整个相应的转录文本数据TD被以同步的方式显示出来。\n[0049] 可选地,根据本发明的系统1,即数据处理装置6,进一步包括监视装置15、16,例如包括定时器17的声音数据级别监视器15和文本输入监视器16,它们在图1中用虚线所示。对监视装置15、16的独创性的使用将在下面变得清楚明白。\n[0050] 图2示出了示例性的声音数据SD和相应的数据流形式的转录文本数据TD(“这是一个例子。”),即在一般的人工转录会话期间,分别作为声音片断(它们中的每一个都被称作表示为SDi的个别的声音基准数据,其中i是大于零的整数)和输入字符(归组在各自文本基准数据TDj中,其中j是大于零的整数)时间相继。水平轴t表示时间。声音数据SD示于图2的上半部分,而文本数据TD显示在图2的下半部分。个别的声音片断用点状边框来标记。声音数据SD流中的阴影部分表示声音信号电平落到低于预先确定的值的时间,由此表示声音数据中的暂停,例如在词语之间或在句子末尾。然而,词语之间的暂停通常不能在连续的语音中检测出来,因此词语之间的阴影区域实际上趋向于零,仅仅为了完整性而表示出来。文本数据TD输入流在图形上被细分为小的片断,每个片断都包含单个文本输入字符,例如字母“T”或空格字符“_”。虽然所述片断都被表示为大体上相等的尺寸,即时间长度,但是当直接根据录音打字的打字员与输入例如字母“a”的标准拉丁字符相比,需要较长的时间来输入某些字符时,例如诸如“α”之类的希腊字母,所述片断的尺寸也可能发生较大的变化。\n[0051] 根据本发明,优选地基于规则的时间,声音数据SD和输入的文本数据TD都通过查询装置8(图1)而被重复查询。在图2中,查询时间表示为Qi,其中i是大于零的整数,并且被标记在时间轴t上。相继查询之间的时间间隔ΔQ优选地达到大约0.1-1秒。作为对使用固定时间间隔ΔQ的替换,查询还可以由某些文本触发,诸如空白或标点,以便在词语边界处获得较好的声音和文本的关联。以这种方式,可以获得当前的时间位置TPi,其中i是大于零的整数,分别对应于当前播放的声音基准数据SDi和当前输入的文本基准数据TDj。通过图2中指向声音数据SD垂直箭头来解释获得所述时间位置TPi。箭头位置进一步用于定义个别声音片断SDi的时间边界。当前输入的文本基准数据TDj被定义为在先前的查询时间Qi-1之后且直到当前的查询时间Qi为止输入的一组字符,例如在Qi,i=7处,TDj=”is_”。由于将在下面详细描述的发生在人工转录会话期间的声音数据SD与文本数据TD之间的时间滞后,参考标记TD和SD用不同的索引变量i和j来标引。以这种方式,考虑到它们各自的内容,上述定义的当前输入的文本基准数据TDj通常不对应于当前播放的声音基准数据SDi。\n[0052] 由于直接根据录音打字的打字员有限的听力和反应速度,文本数据TD通常滞后于声音数据SD,如图2所示:直接根据录音打字的打字员的时间滞后L不是静态值,其在转录会话期间发生变化。例如,在直接根据录音打字的打字员打出词语“This”之前有一定滞后L0,其对应于早先回放的一个或几个声音片断。对应于直接根据录音打字的打字员在相应声音被回放之后,在完成输入词语“This”之前所花费时间的时间滞后L1通常与前面提到的时间滞后L0不同。另外,在声学上困难的声音段落期间或者快到长的转录会话末尾时,由于缺乏注意力,时间滞后可以变得更显著。尽管如此,还是可以导出至少平均时间滞后L,其将取决于系统用户的转录能力,即对于图2中给出的例子来说,L1≤L≤L0。依赖于用户的所述时间滞后L的值优选地在转录会话之前输入到系统中,例如通过文本输入装置5,在那里它可以与本领域技术人员公知的用户简档相联系地存储。可替换地,所述时间滞后值可以由本独创性的系统动态导出,例如通过在用户注册期间(如上所述)测量转录速度的数据处理装置6,或者通过确定声音数据回放的开始与输入第一个相应文本基准数据之间的时间,并且将L的值设置为所述测量/确定的时间滞后。然而,前面提到的初始延迟一般不是对L的好的估计,因此所述第一替换方案是优选的。\n[0053] 为了生成声音数据SD与输入的文本数据TD之间的关联,以用于本独创性系统\n1(图1)尽管在前面提到的时间滞后L的情况下仍然能在后面进行的同步回放,通过查询声音数据SD而为当前输入的文本基准数据TDj所初始导出的时间位置信息必须在时间上校正,以便解决声音数据SD和文本数据TD之间的滞后L:\n[0054] 根据本发明,当前输入的文本基准数据TDj,例如在Q7处的文本基准数据TD7=”is_a”被存储在数据缓冲器12(图1)中,并通过在所述校正装置9(图1)中,通过减去时间滞后L,即TP7’:=TP7-L来校正当前时间位置TP7,近似地与相应的先前播放的声音基准数据(例如SD5)相关联,由此应用与转录延迟相一致的时间校正值。然后,文本基准数据TD7和经校正的时间位置TP7’(其至少近似地对应于与所述文本基准数据TD7最紧密相关的声音基准数据的实际时间位置),通过数据生成装置10而被附加到文本数据文件TDF(图1),由此生成相关基准数据(与图3相比),其指示所述经校正的时间位置TP7’与所述当前输入的文本基准数据TD7之间的同步关联。\n[0055] 图3示出了对应于图2所示例子的共同同步文本数据文件TDF(图1)的示例性摘录,其中所述关联数据当在数据处理装置6(图1)中缓冲和时间校正之后,与所述输入的文本数据一起存储在存储装置3(图1)中。BEOF和EOF分别表示文本数据文件TDF的开头和结尾。个别的数据片断TDj被标记为“...”。在每个文本基准数据TDj之后,该文件包括相应的关联基准数据形式的经校正的时间位置TPi’,其可以在声音和文本数据的联合回放期间用于提供各输出数据的同步。这将在后面结合图5进行解释。\n[0056] 为了进一步改善声音数据和文本数据之间的同步性,声音数据中与特有语音有关的信息,特别是对应于文本数据中标点的声音数据中的暂停被用于生成对应于所述与语音相关的信息的声音数据中时间位置和相关文本数据之间的附加关联数据。为此,根据本独创性系统1的变形,为了检测代表声音数据中语音暂停的数据片断(与图2中的实例句子结尾处的阴影区域相比),声音数据电平监视器15(图1)连续监视人工转录会话环境中回放期间的声音数据SD电平。无论何时声音电平落到可以由用户提供的预先确定的阈值以下,包括在所述电平监视器15中的定时器17被复位并启动。如果所述定时器17在声音电平重新增大到大于所述阈值之前达到另一个预先确定的值t*(与图2相比),就作出一个附加查询来获得声音数据的当前时间位置TPX,其被缓存在所述数据缓冲器12(图1)中。所述附加查询在图2中表示为QX。声音驱动器的公知的“话音操作的记录”功能(还用于语音识别)可用于检测音频中的暂停,即驱动器通报在时间位置y处有x毫秒的暂停。由于这种暂停通常对应于(或更合适地跟随,即与这些标点相关联地发生)文本数据中的标点,例如逗号、句号、问号或感叹号,只要接下来的文本输入基准数据TDj包括这种标点符号,诸如图2中所示的句号,那么经校正的时间位置TPj’=TPj-L就应当接近于(<1秒的时间差)TPX。如果不是这种情况,假设被检测到的暂停不与标点相关,而是与人语音中的不规则性有关,则因此将其忽略。然而,如果TPj’接近TPX,就可以通过使用L=ABS(TPj-TPX)来计算平均转录延迟L的改善的估计。并且,暂停的时间位置和相关文本基准数据TDj之间的附加关联基准数据被生成并存储在文本数据文件TDF(图3)中。\n[0057] 以这种方式,电平监视器15(图1)可被用于重新调整转录滞后L。为此假设定时器17在标点符号(由文本输入监视器16提供)发生的时间上提供的时间值基本上对应于相应声音基准数据的回放之后转录输入的实际滞后L’。因此,为了重新调整转录滞后L,它的值被设置为实际滞后L’的值,即由定时器17提供的相应值。\n[0058] 图4示出了流程图,说明对声音数据和文本数据进行同步的独创性方法,所述文本数据由所述声音数据的人工转录提供。假设声音数据,特别是人语音形式的声音数据已经通过所述声音输入装置2(图1)提供,并被存储在所述存储装置3(图1)中用于回放,本独创性方法从步骤S1开始,接下来是在步骤S2中对系统进行的初始化,包括复位(t=\n0)并启动定时器6a,并设置时间校正/延迟值L和附加的阈值(例如上面的T*),可选地通过请求用户输入来设置。并且,用来存储要由用户输入的转录文本数据的文本数据文件TDF(图1)在存储装置3中打开。在步骤S3中开始对对应于声音数据的音频流进行回放,并且在没有中断的情况下将会继续进行,直到到达声音数据文件SDF(图1)的末尾(步骤S10,参见下面),或者直到用户显式地中断回放。在接下来的步骤S4中,系统等待,直到用户第一次输入对应于正在回放的声音数据的文本数据,即TD≠””。此后,重复进行下面的步骤S5-S9,直到在步骤S10中检测出到达声音数据文件SDF的末尾。在步骤S5中,查询声音数据和文本数据两者,以便获得分别对应于当前播放的声音基准数据SDi的当前时间位置TPi和当前转录的文本基准数据TDj。在接下来的步骤S6中,获得的时间位置TPi和文本基准数据TDj,即字符串,都被暂时存储在数据缓冲器12(图1)中。步骤S7包括通过减去与转录延迟相一致的时间校正值L来校正所述当前时间位置TPi,并且在接下来的步骤S8中生成至少一个关联基准数据,该关联基准数据指示所述经校正的时间位置TPi’与所述当前转录的文本基准数据TPj之间的同步关联。最后,在步骤S9中,文本基准数据TPj和相应的关联基准数据被附加到文本数据文件TDF,正如上面已经结合图3所描述的那样。此后,接下来的步骤S11-S1 5包括与那些参照步骤S5-S9的描述相似的动作,主要区别仅仅是在步骤S11中对文本数据进行查询,因为声音数据的回放已经终止了。\n然而,仍然可以至少近似地根据系统定时器6a导出时间位置信息,该定时器已经恰好在开始声音数据回放之前被复位。因此,在步骤S12中,由所述定时器6a提供的定时信息t与文本基准数据一起缓存,并且在步骤S13中校正所述定时信息t,由此得到t’=t-L,如上所述。步骤S14和S15对应于前面的S8和S9,其中TPi’和必须分别用t’和代替。如果在步骤S16中检测出用户输入的末尾,则本独创性方法在接下来的步骤S17中结束。\n[0059] 图5示出了流程图,说明对声音数据和相应文本数据进行同步回放的独创性方法,其利用了通过参照附图2和4的上述独创性方法而获得的同步文本数据文件TDF(图1、\n3)。对声音数据和相应文本数据进行同步回放的所述方法在步骤S18中开始。接下来的步骤S19是初始化步骤,特别是用于复位(t=0)并启动系统定时器6a,并分配指向文本数据文件TDF(图3)开头的文本指针,后者包括要以同步的方式与声音数据一起显示的转录文本数据。在接下来的步骤S20中,开始对声音数据进行回放。然后立刻地,当还没有到达文本数据文件TDF的末尾时(检测步骤21),在步骤22中显示第一文本数据分段TDj,例如在显示装置14上显示。正如参照图2和图3描述的,所述第一文本数据分段TDj包括第一相应关联基准数据之前的所有文本数据,其对于图2给出的例子来说是。\n如果所述文本数据片断TDj在词汇单元的中间结束,诸如单词(与图2相比),则所述数据片断可以扩展为包括下个文本数据片断TDj+1的一部分,直到到达一个“_”(空格)字符,其指示词汇单元的结束。以这种方式,本独创性方法提供了对同步数据输出的改善的可辨识性。另外,文本输出可以利用其它已知的词汇特征来构造,例如音节等等。在接下来的步骤S23中,文本指针被移动到文本数据文件TDF中的当前位置,使得接下来的输出将以在前面的输出步骤S22期间还没有显示的转录文本的第一字符开始。此后,在步骤S24中,本独创性系统等待系统定时器6a达到值t≥,即从系统初始化开始流逝的时间已经经过了对应于所述第一关联基准数据的时间。在接下来的步骤S25中,索引变量i递增,本方法继续从步骤S21进行。重复步骤S21到S25,直到所有转录文本都已经被显示(步骤S26)。作为上述步骤S24的改善的替代方案,不使用系统定时器6a,用于控制文本输出的当前时间位置可以像前面一样通过在回放期间(与图2、4相比)直接查询声音数据来获得,由此将声音和文本输出以一种更直接的方式链接起来:在该环境下,当前声音位置可以被周期性查询,也可以是声音驱动器发送指示当前声音位置的周期事件。所述声音位置被用于选择要被显示的文本基准数据。在同步回放期间,文本通常被显示在文本处理器中,诸如MS-Word,然后相关部分被高亮显示。\n[0060] 本独创性系统1(图1)可以以一般的方式将声音转录为文本,特别是用于医学转录。有益地,系统1被包括作为文档生成工作流中校正阶段的一部分,后者包括至少如下阶段:\n[0061] 口授,例如通过适当适配的例如麦克风形式的声音输入装置2(图1)来记录声音数据,并接下来将声音数据存储在存储装置3中;\n[0062] 通过语音识别装置13(图1)进行语音识别,以便自动产生文本数据;以及[0063] 通过根据本独创性方法,对所述文本数据中有缺陷的段落进行人工重新转录,校正所述自动产生的文本数据。\n[0064] 可选地,可以提供进一步的回顾/质量保障阶段,其也可以利用上面详细描述的本独创性方法。
法律信息
- 2012-04-25
- 2009-09-02
专利申请权、专利权的转移(专利申请权的转移)
专利申请权、专利权的转移(专利申请权的转移)变更项目:申请人变更前权利人:皇家飞利浦电子股份有限公司 申请人地址:荷兰艾恩德霍芬变更后权利人:微差通信奥地利有限责任公司 申请人地址:奥地利维也纳登记生效日:2009.7.31
- 2008-10-22
- 2008-08-27
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |