技术领域
本发明涉及语音合成领域,具体是一种在使用计算机完成从文 本到自然语音的转换过程中,管理和应用提示语音的方法。
背景技术
在IVR、呼叫中心等电话语音系统中,业务流程往往需要同时使 用预录的提示音和合成语音。预录提示音采用真人录音,效果自然, 并且能体现更多的情感风格,给用户以亲切感受。合成语音虽然清晰 准确,但是在语气和情感方面还与真人录音存在一定的差距。在具体 应用中,预录语音用于播报语音服务系统中相对固定的内容,通常是 进系统的问候语和系统操作方法的提示。合成语音用于播报内容经常 变化、信息量大、需要即时合成的文本。预录语音与合成语音结合, 既可以满足电话语音服务中人性化的要求,又实现了动态信息的即时 播报。
但是,目前的电话语音服务系统中,所应用的语音合成系统存 在如下的问题:
第一,在系统集成过程中,通常要使用两套接口来分别调用和 播放提示音和合成语音,在电话语音系统所提供的服务相对复杂的情 况下,尤其是提示语音和合成语音交替出现,需要频繁切换的情况下, 业务流程的编写就显得特别复杂,由此也增加了集成开发的工作量。
第二,提示语音一般使用语音文件的形式存放和管理,一条提 示语音保存为一个语音文件,而且一般都需要从某种语音数据格式转 化为指定的语音数据格式,文件数量众多,管理不便,匹配也困难, 在转化的过程中很容易出错。
第三,由于提示音是预录语音,它与合成语音在能量等多个方 面有不同的特征,因此,如果只是简单地拼接提示音和合成语音,会 造成两段语音差别明显,在语音衔接处会出现跳音等现象,影响播报 的整体效果。
另外,由于提示语音文件和合成语音文件都各自保存,电话语 音系统中只有提示语音的声音文件,无法从文本角度完全显示整个服 务流程及内容,也无法进行提示音、合成语音的拼接调整和优化处理。
发明的内容
本发明的目的就是提供一种在语音合成系统中将提示音与文本 语音合成输出的方法。
一种在语音合成系统中将提示音与文本语音合成输出的方法,包 括先由用户向合成系统提供合成文本信息,合成系统经过文本分析 (对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、 语调等),再调用音库中的发音单元,组合成连续的被合成文本语音 数据,其特征是:建立提示音库,建立标识(序号或名称)与提示音 内容相对应的提示音索引,在语音合成系统的资源管理中心中增加对 对提示音库进行添加、删除、音量调整、文本内容编辑管理操作等等 程序内容;在语音合成系统的用户开发接口提供的设置合成参数的函 数中增加有关提示音的合成参数,采用文本匹配的方式,使语音合成 系统自动比较合成文本与提示音库,搜索合成文本中与提示音文本相 同的内容,并将合成文本与提示音文本完全相同的内容替换成相应的 提示语音,其余文本仍使用合成语音;或者在合成文本中插入提示音 CSSML标记,指定文本中需要使用的提示语音文件名称或者是提示 语音的索引序号或名称,并调用提示音库中的相应的提示音,合成文 本其它部分仍保持合成语音;通过上述文本匹配或者CSSML标记的 方式调用的提示音,均是与合成语音按照一定的音量(能量)比例进 行拼接,获得含有提示音的合成语音数据输出。
所述的将提示音与文本语音合成输出的方法,其特征在于提示音 库的制作步骤如下:
(1)录音:用户根据自己的应用需要,人工预先录制常用的 提示语音,并保存为语音文件;
(2)格式转换:用户将语音文件手工转化为线性PCM、Alaw 或vox等合成系统可以识别的语音数据格式;
(3)采样率转换:合成系统根据用户已安装音库的采样率, 把提示音转换成相同采样率的语音文件;
(4)能量调整:合成系统根据用户指定的参数,对提示语音 进行能量的调整;
(5)语音数据压缩:合成系统将所有提示语音数据压缩成 alaw格式;
(6)保存:合成系统将提示语音数据、提示音文本内容等信 息按照一定的格式保存到提示音库中。
所述的将提示音与文本语音合成输出的方法,其特征在于采用 CSSML标记方式调用提示音步骤如下:
(1)设置标记:在合成文本中按照文本标记语言规范的要 求,使用CSSML标记插入提示音的信息,如提示语音 的索引序号或名称;
(2)标记解析:合成系统解析CSSML标记文本,对提示 音标记进行分析,得到其携带的信息;
(3)提取语音:合成系统根据CSSML标记携带的信息, 从提示音音库中提取提示语音数据并解压为线性PCM格 式;
(4)波形拼接:合成语音和提示音的语音进行能量比例的 调整,使得波形拼接处声音频率与波形和缓;
(5)数据输出:合成系统输出符合要求的语音数据。
所述的将提示音与文本语音合成输出的方法,其特征在于文本匹 配方式调用提示音步骤如下:
(1)参数设置:用户在语音合成系统中应用程序设置提示 音的合成参数打开合成系统的提示音替换功能;
(2)文本匹配:合成系统将合成文本的内容和提示音文本 的内容进行比较;
(3)文本替换:合成系统将合成文本和提示音文本的完全 相同的内容替换成相应的提示音的标识(序号或名称);
(4)提取语音:合成系统根据提示音标识(序号或名称) 从提示音音库中提取语音数据并解压;
(5)波形拼接:合成系统将合成语音与替换的提示音语音 进行能量调整,使得波形拼接处声音频率与波形和缓;
(6)数据输出:合成系统输出符合要求的语音数据。
所述的将提示音与文本语音合成输出的方法,其特征在于资源管 理中心的提示音用户界面中,提供了自动替换提示语音的功能,合成 系统能在合成过程中搜索待合成的文本,当文本内容与提示语音的文 本信息完全相同时,合成语音中将自动使用提示语音来完成对应文本 的播报;“资源管理中心”的“提示语音”界面实现了提示语音资源 的添加、删除和修改,以及设置提示音的相关属性的功能;“提示 语音信息设置”界面实现了提示语音属性的设置与修改,这些属性包 括提示语音名称、提示音索引序号、是否生效、提示音文本内容、匹 配语音文件位置、语音文件格式;“提示语音信息设置”界面实现了 提示语音试听和调节功能,界面中为用户提供合成语音的参考音量, 以及提示音音量的调节工具,便于用户对比和调整,以获得最佳提示 音效果;“合成演示程序”界面“高级参数设置”提供了是否开启提 示音自动替换文本功能来控制提示音自动替换的功能,如果该参数打 开,在语音合成过程中,系统将自动比较被合成文本与提示音资源, 并将被合成文本中与提示音文本完全相同的内容替换成该提示语音。
发明的效果
本发明方法应用在InterPhonic CE3.0语音合成系统中,提示音 是合成系统的一种资源,存放于系统的提示音库中。在使用合成系统 前,需要将用户想要播放的提示音添加到提示音库中,然后就可以在 合成系统中使用了。
InterPhonic CE 3.0语音合成系统实现了提示音的统一管理和处 理的功能。
与其它电话语音系统中的提示音应用情况相比,本发明的优势 显而易见:
首先,本发明使用统一的提示语音管理将IVR系统从原来的众 多提示语音文件管理工作中解放出来,而由语音合成系统来进行更加 合理的管理和共享;(通过语音合成服务器,多个IVR服务器中都可 以使用添加的提示语音)。客户不需要额外的开发工作就可以提升同 时使用两种语音的情况下播报的语音效果。
其次,使用语音合成系统提供的统一的开发接口,电话语音流 程能更加侧重于业务流程的处理,而不用再处理预录语音和合成语音 切换的细节工作,从而减小了集成工作的复杂性,提高了集成开发的 效率;
第三,语音合成系统在管理提示语音的过程中,提供了工具帮 助用户解决提示语音与合成语音能量不同的问题,在内部自动处理了 语音格式转化的问题,在合成过程中还采用了算法保证提示语音和合 成语音的自然过渡衔接;
最后,采用CSSML文本标记语言的方式或者是文本替换的方 式,用户可以在合成文本的层面进行提示语音和合成语音的拼接处 理,方便易用。
另外,本系统还提供面向行业的定制提示音库,满足不同行业 提示音应用的需要。
术语解释
语音合成(Text-To-Speech):又称为文语转化。它涉及声学、 语言学、数字信号处理、多媒体等多种学科,是中文信息处理领域的 一项前沿技术。语音合成技术解决的主要问题是:如何将电子化文本 的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计 算机技术和数字信号处理技术的发展而发展起来的,目的是让计算机 能够产生高清晰度、高自然度的连续语音。
IVR:交互式语音应答(Interactive Voice Response),是呼叫中 心系统结构中不可或缺的重要组成部分,它能为来话者提供相应的语 音引导,并为其实现自动语音服务。
CSSML:即中文语音合成标记语言(Chinese Speech Synthesis Markup Language),是针对中文语音合成的特点,由科大讯飞公司 制定的中文语音合成标记规范,该规范是SSML v1.0规范的扩展,于 2002年12月发布。本公司语音合成系统产品都把CSSML规范作为中 文语音合成的支持标准,用户可以通过CSSML标记文本来指定文本的 合成方式,这种方法能够规范化文本的合成方式、解决许多语音合成 系统难以智能处理的问题。
附图说明
图1:在InterPhonic 3.0语音合成系统的资源管理中心提示音 界面管理提示音资源。可以添加、删除提示音文件,设置提示音文本。
图2:在InterPhonic 3.0语音合成系统的提示音属性设置界面 设置提示音属性和调节试听效果。
图3:在InterPhonic 3.0语音合成系统的合成演示程序界面中 设置系统参数,确定是否启用提示语音。
图4:本发明的工作流程框图。
具体实施方式
一种在语音合成系统中将提示音与文本语音合成输出的方法,包 括先由用户向合成系统提供合成文本信息,合成系统经过文本分析 (对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、 语调等),再调用音库中的发音单元,组合成连续的被合成文本语音 数据,其特征是:建立提示音库,建立标识(序号或名称)与提示音 内容相对应的提示音索引,在语音合成系统的资源管理中心中增加对 对提示音库进行添加、删除、音量调整、文本内容编辑管理操作等等 程序内容;在语音合成系统的用户开发接口提供的设置合成参数的函 数(本例中采用为TtssetSyuthParam函数)中增加有关提示音的合成 参数,采用文本匹配的方式,使语音合成系统自动比较合成文本与提 示音库,搜索合成文本中与提示音文本相同的内容,并将合成文本与 提示音文本完全相同的内容替换成相应的提示语音,其余文本仍使用 合成语音;或者在合成文本中插入提示音CSSML标记,指定文本中 需要使用的提示语音文件名称或者是提示语音的索引序号或名称,并 调用提示音库中的相应的提示音,合成文本其它部分仍保持合成语 音;通过上述文本匹配或者CSSML标记的方式调用的提示音,均是 与合成语音按照一定的音量(能量)比例进行拼接,获得含有提示音 的合成语音数据输出。
提示音库的制作步骤如下:
(1)录音:用户根据自己的应用需要,人工预先录制常用的 提示语音,并保存为语音文件;
(2)格式转换:用户将语音文件手工转化为线性PCM、Alaw 或vox等合成系统可以识别的语音数据格式;
(3)采样率转换:合成系统根据用户已安装音库的采样率, 把提示音转换成相同采样率的语音文件;
(4)能量调整:合成系统根据用户指定的参数,对提示语音 进行能量的调整;
(5)语音数据压缩:合成系统将所有提示语音数据压缩成 alaw格式;
(6)保存:合成系统将提示语音数据、提示音文本内容等信 息按照一定的格式保存到提示音库中。
采用CSSML标记方式调用提示音步骤如下:
(1)设置标记:在合成文本中按照文本标记语言规范的要 求,使用CSSML标记插入提示音的信息,如提示语音 的索引序号或名称;
(2)标记解析:合成系统解析CSSML标记文本,对提示 音标记进行分析,得到其携带的信息;
(3)提取语音:合成系统根据CSSML标记携带的信息, 从提示音音库中提取提示语音数据并解压为线性PCM格 式;
(4)波形拼接:合成语音和提示音的语音进行能量比例的 调整,使得波形拼接处声音频率与波形和缓;
(5)数据输出:合成系统输出符合要求的语音数据。
文本匹配方式调用提示音步骤如下:
(1)参数设置:用户在语音合成系统中应用程序设置提示 音的合成参数打开合成系统的提示音替换功能;
(2)文本匹配:合成系统将合成文本的内容和提示音文本 的内容进行比较;
(3)文本替换:合成系统将合成文本和提示音文本的完全 相同的内容替换成相应的提示音的标识(序号或名称);
(4)提取语音:合成系统根据提示音标识(序号或名称) 从提示音音库中提取语音数据并解压;
(5)波形拼接:合成系统将合成语音与替换的提示音语音 进行能量调整,使得波形拼接处声音频率与波形和缓;
(6)数据输出:合成系统输出符合要求的语音数据。
本发明上述方法采用计算机软件形式,应用在InterPhonic CE3.0 语音合成系统中,为用户提供一系列提示音应用和管理的用户界面, 使提示音和合成语音的应用实现自然拼接,提高语音服务品质。
该合成系统目前支持的提示语音文件格式为:单声道量化比特为 8/16位、采样率为6/8/11/16/22/44K的pcm和alaw数据格式,以及 单声道6k/8k的vox数据格式。系统能够自动识别有头的语音文件格 式,对于无头的语音文件,需要用户指定其格式。
以下对本发明的提示音界面进行描述。
■界面1(图1):在InterPhonic 3.0语音合成系统的资源管理中心 提示音界面管理提示音资源。可以添加、删除提示音文件,设置 提示音文本。
■界面2(图2):在InterPhonic 3.0语音合成系统的提示音属性设 置界面设置提示音属性和调节试听效果。其中听音即提供提示音 和我们合成语音的能量调整和拼接效果测听。
其中各项参数说明:
名称:当前所设置的提示语音标题,也即该提示语音文件的文件 名。需要用户输入,长度不大于32个字符。
音库标识:选择匹配音库类型。
生效:表示当前所设置的提示语音是否立即启用。只有在生效的 情况下,合成文本中才能使用提示语音。
文本内容:当前所设置的提示语音的文字内容。需要用户输入, 长度不大于4K字符(注意:最后的字符不能是标点符号或空格)。
语音文件:是指与当前所设置提示语音相匹配的预录语音文件的 位置。
语音格式:当系统能够识别预录语音文件格式的时候,采样率选 择框变灰;反之,则需要指定语音文件格式。格式说明:
PCM 6K8B1C:6k8bit单声道pcm数据
PCM 6K16B1C:6k16bit单声道pcm数据
PCM 8K8B1C:8k8bit单声道pcm数据
PCM 8K16B1C:8k16bit单声道pcm数据
以此类推;
ALAW 6K1C:6k单声道alaw数据
ALAW 8K1C:8k单声道alaw数据
ALAW 11K1C:11k单声道alaw数据
以此类推;
VOX6K1C:单声道6k的vox数据
VOX8K1C:单声道8k的vox数据
试听功能:单击“试听”按钮,可以试听当前正在设置的提示语音。 用户可以根据需要调整提示语音的音量大小。提示语音后面的女 声“科大讯飞语音合成系统”是系统自动加入的合成语音,目的是 帮助用户根据合成语音的音量调整提示语音的音量,使之更好地 符合合成文本的整体风格。单击“停止”按钮结束试听。
■界面3(图3):在InterPhonic 3.0语音合成系统的合成演示程序 界面中设置系统参数,确定是否启用提示语音。选择“禁用替换功 能”,合成的语音文件中不出现提示语音,这是默认形式;选择“启 用替换功能”,就是在合成的语音文件中应用提示音。在语音合成 过程中,系统将自动比较被合成文本与提示音资源,并将被合成 文本中与提示音文本完全相同的内容替换成该提示语音。另外, 还可以使用CSSML标记替换被合成文本中指定位置的文字,方 法是:用CSSML的audio标记,其src属性值指定为该提示音的 名称,例如:
在合成文本中用CSSML标记引用背景音有三种形式:
一是用提示音名称,如:
二是用提示音编号,如:
三是用提示音文件路径,如: