著录项信息
专利名称 | 在语音合成系统中将提示音与文本语音合成输出的方法 |
申请号 | CN200410045000.X | 申请日期 | 2004-06-01 |
法律状态 | 暂无 | 申报国家 | 暂无 |
公开/公告日 | 2005-02-23 | 公开/公告号 | CN1584980 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G10L13/02 | IPC分类号 | G;1;0;L;1;3;/;0;2;;;G;1;0;L;1;3;/;0;8查看分类表>
|
申请人 | 安徽中科大讯飞信息科技有限公司 | 申请人地址 | 安徽省合肥市高新开发区望江西路666号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 安徽中科大讯飞信息科技有限公司,科大讯飞股份有限公司 | 当前权利人 | 安徽中科大讯飞信息科技有限公司,科大讯飞股份有限公司 |
发明人 | 严峻;于继栋;张贻武 |
代理机构 | 合肥华信专利商标事务所 | 代理人 | 余成俊 |
摘要
本发明公开了一种在语音合成系统中将提示音与文本语音合成输出的方法,包括先由用户向合成系统提供合成文本信息,合成系统经过文本分析和韵律分析,再调用音库中的发音单元,组合成连续的被合成文本语音数据,本发明特征是建立提示音库,在语音合成系统的用户开发接口设置提示音的合成参数,或者在合成文本中插入提示音CSSML标记;通过文本匹配或者CSSML标记的方式调用的提示音,与合成语音拼接,获得含有提示音的合成语音数据输出。提示音是合成系统的一种资源,用户可以将想要播放的提示音添加到提示音库中,实现了提示音的统一管理和处理。
1、一种在语音合成系统中将提示音与文本语音合成输出的方法, 包括先由用户向合成系统提供合成文本信息,合成系统经过文 本分析和韵律分析,再调用音库中的发音单元,组合成连续的 被合成文本语音数据,其特征是:建立提示音库,建立标识与 提示音内容相对应的提示音索引,在语音合成系统的资源管理 中心中增加对对提示音库进行添加、删除、音量调整、文本内 容编辑管理操作程序内容;在语音合成系统的用户开发接口提 供的设置合成参数的函数中增加有关提示音的合成参数,采用 文本匹配的方式,使语音合成系统自动比较合成文本与提示音 库,搜索合成文本中与提示音文本相同的内容,并将合成文本 与提示音文本完全相同的内容替换成相应的提示语音,其余文 本仍使用合成语音;或者在合成文本中插入提示音中文语音合 成标记语言的标记,指定文本中需要使用的提示语音文件名称 或者是提示语音的索引序号或名称,并调用提示音库中的相应 的提示音,合成文本其它部分仍保持合成语音;通过上述文本 匹配或者中文语音合成标记语言的标记的方式调用的提示音, 均是与合成语音按照一定的音量比例进行拼接,获得含有提示 音的合成语音数据输出。
2、如权利要求1所述的将提示音与文本语音合成输出的方法,其 特征在于采用中文语音合成标记语言的标记方式调用提示音步 骤如下:
(1)设置标记:在合成文本中按照文本标记语言规范的要 求,使用中文语音合成标记语言的标记插入提示音的信 息,如提示语音的索引序号或名称;
(2)标记解析:合成系统解析中文语音合成标记语言的标 记文本,对提示音标记进行分析,得到其携带的信息;
(3)提取语音:合成系统根据中文语音合成标记语言的标 记携带的信息,从提示音音库中提取提示语音数据并解压 为线性PCM格式;
(4)波形拼接:合成语音和提示音的语音进行能量比例的 调整,使得波形拼接处声音频率与波形和缓;
(5)数据输出:合成系统输出符合要求的语音数据。
3、如权利要求1所述的将提示音与文本语音合成输出的方法,其 特征在于文本匹配方式调用提示音步骤如下:
(1)参数设置:用户在语音合成系统中应用程序设置提示 音的合成参数打开合成系统的提示音替换功能;
(2)文本匹配:合成系统将合成文本的内容和提示音文本 的内容进行比较;
(3)文本替换:合成系统将合成文本和提示音文本的完全 相同的内容替换成相应的提示音的标识;
(4)提取语音:合成系统根据提示音标识从提示音音库中 提取语音数据并解压;
(5)波形拼接:合成系统将合成语音与替换的提示音语音 进行能量调整,使得波形拼接处声音频率与波形和缓;
(6)数据输出:合成系统输出符合要求的语音数据。
4、如权利要求1所述的将提示音与文本语音合成输出的方法,其 特征在于资源管理中心的提示音用户界面中,提供了自动替换 提示语音的功能,合成系统能在合成过程中搜索待合成的文本, 当文本内容与提示语音的文本信息完全相同时,合成语音中将 自动使用提示语音来完成对应文本的播报;“资源管理中心”的 “提示语音”界面实现了提示语音资源的添加、删除和修改, 以及设置提示音的相关属性的功能;“提示语音信息设置”界 面实现了提示语音属性的设置与修改,这些属性包括提示语音 名称、提示音索引序号、是否生效、提示音文本内容、匹配语 音文件位置、语音文件格式;“提示语音信息设置”界面实现了 提示语音试听和调节功能,界面中为用户提供合成语音的参考 音量,以及提示音音量的调节工具,便于用户对比和调整,以 获得最佳提示音效果;“合成演示程序”界面“高级参数设置” 提供了是否开启提示音自动替换文本功能来控制提示音自动替 换的功能,如果该参数打开,在语音合成过程中,系统将自动 比较被合成文本与提示音资源,并将被合成文本中与提示音文 本完全相同的内容替换成该提示语音。
技术领域\n本发明涉及语音合成领域,具体是一种在使用计算机完成从文 本到自然语音的转换过程中,管理和应用提示语音的方法。\n背景技术\n在IVR、呼叫中心等电话语音系统中,业务流程往往需要同时使 用预录的提示音和合成语音。预录提示音采用真人录音,效果自然, 并且能体现更多的情感风格,给用户以亲切感受。合成语音虽然清晰 准确,但是在语气和情感方面还与真人录音存在一定的差距。在具体 应用中,预录语音用于播报语音服务系统中相对固定的内容,通常是 进系统的问候语和系统操作方法的提示。合成语音用于播报内容经常 变化、信息量大、需要即时合成的文本。预录语音与合成语音结合, 既可以满足电话语音服务中人性化的要求,又实现了动态信息的即时 播报。\n但是,目前的电话语音服务系统中,所应用的语音合成系统存 在如下的问题:\n第一,在系统集成过程中,通常要使用两套接口来分别调用和 播放提示音和合成语音,在电话语音系统所提供的服务相对复杂的情 况下,尤其是提示语音和合成语音交替出现,需要频繁切换的情况下, 业务流程的编写就显得特别复杂,由此也增加了集成开发的工作量。\n第二,提示语音一般使用语音文件的形式存放和管理,一条提 示语音保存为一个语音文件,而且一般都需要从某种语音数据格式转 化为指定的语音数据格式,文件数量众多,管理不便,匹配也困难, 在转化的过程中很容易出错。\n第三,由于提示音是预录语音,它与合成语音在能量等多个方 面有不同的特征,因此,如果只是简单地拼接提示音和合成语音,会 造成两段语音差别明显,在语音衔接处会出现跳音等现象,影响播报 的整体效果。\n另外,由于提示语音文件和合成语音文件都各自保存,电话语 音系统中只有提示语音的声音文件,无法从文本角度完全显示整个服 务流程及内容,也无法进行提示音、合成语音的拼接调整和优化处理。\n发明的内容\n本发明的目的就是提供一种在语音合成系统中将提示音与文本 语音合成输出的方法。\n一种在语音合成系统中将提示音与文本语音合成输出的方法,包 括先由用户向合成系统提供合成文本信息,合成系统经过文本分析 (对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、 语调等),再调用音库中的发音单元,组合成连续的被合成文本语音 数据,其特征是:建立提示音库,建立标识(序号或名称)与提示音 内容相对应的提示音索引,在语音合成系统的资源管理中心中增加对 对提示音库进行添加、删除、音量调整、文本内容编辑管理操作等等 程序内容;在语音合成系统的用户开发接口提供的设置合成参数的函 数中增加有关提示音的合成参数,采用文本匹配的方式,使语音合成 系统自动比较合成文本与提示音库,搜索合成文本中与提示音文本相 同的内容,并将合成文本与提示音文本完全相同的内容替换成相应的 提示语音,其余文本仍使用合成语音;或者在合成文本中插入提示音 CSSML标记,指定文本中需要使用的提示语音文件名称或者是提示 语音的索引序号或名称,并调用提示音库中的相应的提示音,合成文 本其它部分仍保持合成语音;通过上述文本匹配或者CSSML标记的 方式调用的提示音,均是与合成语音按照一定的音量(能量)比例进 行拼接,获得含有提示音的合成语音数据输出。\n所述的将提示音与文本语音合成输出的方法,其特征在于提示音 库的制作步骤如下:\n(1)录音:用户根据自己的应用需要,人工预先录制常用的 提示语音,并保存为语音文件;\n(2)格式转换:用户将语音文件手工转化为线性PCM、Alaw 或vox等合成系统可以识别的语音数据格式;\n(3)采样率转换:合成系统根据用户已安装音库的采样率, 把提示音转换成相同采样率的语音文件;\n(4)能量调整:合成系统根据用户指定的参数,对提示语音 进行能量的调整;\n(5)语音数据压缩:合成系统将所有提示语音数据压缩成 alaw格式;\n(6)保存:合成系统将提示语音数据、提示音文本内容等信 息按照一定的格式保存到提示音库中。\n所述的将提示音与文本语音合成输出的方法,其特征在于采用 CSSML标记方式调用提示音步骤如下:\n(1)设置标记:在合成文本中按照文本标记语言规范的要 求,使用CSSML标记插入提示音的信息,如提示语音 的索引序号或名称;\n(2)标记解析:合成系统解析CSSML标记文本,对提示 音标记进行分析,得到其携带的信息;\n(3)提取语音:合成系统根据CSSML标记携带的信息, 从提示音音库中提取提示语音数据并解压为线性PCM格 式;\n(4)波形拼接:合成语音和提示音的语音进行能量比例的 调整,使得波形拼接处声音频率与波形和缓;\n(5)数据输出:合成系统输出符合要求的语音数据。\n所述的将提示音与文本语音合成输出的方法,其特征在于文本匹 配方式调用提示音步骤如下:\n(1)参数设置:用户在语音合成系统中应用程序设置提示 音的合成参数打开合成系统的提示音替换功能;\n(2)文本匹配:合成系统将合成文本的内容和提示音文本 的内容进行比较;\n(3)文本替换:合成系统将合成文本和提示音文本的完全 相同的内容替换成相应的提示音的标识(序号或名称);\n(4)提取语音:合成系统根据提示音标识(序号或名称) 从提示音音库中提取语音数据并解压;\n(5)波形拼接:合成系统将合成语音与替换的提示音语音 进行能量调整,使得波形拼接处声音频率与波形和缓;\n(6)数据输出:合成系统输出符合要求的语音数据。\n所述的将提示音与文本语音合成输出的方法,其特征在于资源管 理中心的提示音用户界面中,提供了自动替换提示语音的功能,合成 系统能在合成过程中搜索待合成的文本,当文本内容与提示语音的文 本信息完全相同时,合成语音中将自动使用提示语音来完成对应文本 的播报;“资源管理中心”的“提示语音”界面实现了提示语音资源 的添加、删除和修改,以及设置提示音的相关属性的功能;“提示 语音信息设置”界面实现了提示语音属性的设置与修改,这些属性包 括提示语音名称、提示音索引序号、是否生效、提示音文本内容、匹 配语音文件位置、语音文件格式;“提示语音信息设置”界面实现了 提示语音试听和调节功能,界面中为用户提供合成语音的参考音量, 以及提示音音量的调节工具,便于用户对比和调整,以获得最佳提示 音效果;“合成演示程序”界面“高级参数设置”提供了是否开启提 示音自动替换文本功能来控制提示音自动替换的功能,如果该参数打 开,在语音合成过程中,系统将自动比较被合成文本与提示音资源, 并将被合成文本中与提示音文本完全相同的内容替换成该提示语音。\n发明的效果\n本发明方法应用在InterPhonic CE3.0语音合成系统中,提示音 是合成系统的一种资源,存放于系统的提示音库中。在使用合成系统 前,需要将用户想要播放的提示音添加到提示音库中,然后就可以在 合成系统中使用了。\nInterPhonic CE 3.0语音合成系统实现了提示音的统一管理和处 理的功能。\n与其它电话语音系统中的提示音应用情况相比,本发明的优势 显而易见:\n首先,本发明使用统一的提示语音管理将IVR系统从原来的众 多提示语音文件管理工作中解放出来,而由语音合成系统来进行更加 合理的管理和共享;(通过语音合成服务器,多个IVR服务器中都可 以使用添加的提示语音)。客户不需要额外的开发工作就可以提升同 时使用两种语音的情况下播报的语音效果。\n其次,使用语音合成系统提供的统一的开发接口,电话语音流 程能更加侧重于业务流程的处理,而不用再处理预录语音和合成语音 切换的细节工作,从而减小了集成工作的复杂性,提高了集成开发的 效率;\n第三,语音合成系统在管理提示语音的过程中,提供了工具帮 助用户解决提示语音与合成语音能量不同的问题,在内部自动处理了 语音格式转化的问题,在合成过程中还采用了算法保证提示语音和合 成语音的自然过渡衔接;\n最后,采用CSSML文本标记语言的方式或者是文本替换的方 式,用户可以在合成文本的层面进行提示语音和合成语音的拼接处 理,方便易用。\n另外,本系统还提供面向行业的定制提示音库,满足不同行业 提示音应用的需要。\n术语解释\n语音合成(Text-To-Speech):又称为文语转化。它涉及声学、 语言学、数字信号处理、多媒体等多种学科,是中文信息处理领域的 一项前沿技术。语音合成技术解决的主要问题是:如何将电子化文本 的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计 算机技术和数字信号处理技术的发展而发展起来的,目的是让计算机 能够产生高清晰度、高自然度的连续语音。\nIVR:交互式语音应答(Interactive Voice Response),是呼叫中 心系统结构中不可或缺的重要组成部分,它能为来话者提供相应的语 音引导,并为其实现自动语音服务。\nCSSML:即中文语音合成标记语言(Chinese Speech Synthesis Markup Language),是针对中文语音合成的特点,由科大讯飞公司 制定的中文语音合成标记规范,该规范是SSML v1.0规范的扩展,于 2002年12月发布。本公司语音合成系统产品都把CSSML规范作为中 文语音合成的支持标准,用户可以通过CSSML标记文本来指定文本的 合成方式,这种方法能够规范化文本的合成方式、解决许多语音合成 系统难以智能处理的问题。\n附图说明\n图1:在InterPhonic 3.0语音合成系统的资源管理中心提示音 界面管理提示音资源。可以添加、删除提示音文件,设置提示音文本。\n图2:在InterPhonic 3.0语音合成系统的提示音属性设置界面 设置提示音属性和调节试听效果。\n图3:在InterPhonic 3.0语音合成系统的合成演示程序界面中 设置系统参数,确定是否启用提示语音。\n图4:本发明的工作流程框图。\n具体实施方式\n一种在语音合成系统中将提示音与文本语音合成输出的方法,包 括先由用户向合成系统提供合成文本信息,合成系统经过文本分析 (对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、 语调等),再调用音库中的发音单元,组合成连续的被合成文本语音 数据,其特征是:建立提示音库,建立标识(序号或名称)与提示音 内容相对应的提示音索引,在语音合成系统的资源管理中心中增加对 对提示音库进行添加、删除、音量调整、文本内容编辑管理操作等等 程序内容;在语音合成系统的用户开发接口提供的设置合成参数的函 数(本例中采用为TtssetSyuthParam函数)中增加有关提示音的合成 参数,采用文本匹配的方式,使语音合成系统自动比较合成文本与提 示音库,搜索合成文本中与提示音文本相同的内容,并将合成文本与 提示音文本完全相同的内容替换成相应的提示语音,其余文本仍使用 合成语音;或者在合成文本中插入提示音CSSML标记,指定文本中 需要使用的提示语音文件名称或者是提示语音的索引序号或名称,并 调用提示音库中的相应的提示音,合成文本其它部分仍保持合成语 音;通过上述文本匹配或者CSSML标记的方式调用的提示音,均是 与合成语音按照一定的音量(能量)比例进行拼接,获得含有提示音 的合成语音数据输出。\n提示音库的制作步骤如下:\n(1)录音:用户根据自己的应用需要,人工预先录制常用的 提示语音,并保存为语音文件;\n(2)格式转换:用户将语音文件手工转化为线性PCM、Alaw 或vox等合成系统可以识别的语音数据格式;\n(3)采样率转换:合成系统根据用户已安装音库的采样率, 把提示音转换成相同采样率的语音文件;\n(4)能量调整:合成系统根据用户指定的参数,对提示语音 进行能量的调整;\n(5)语音数据压缩:合成系统将所有提示语音数据压缩成 alaw格式;\n(6)保存:合成系统将提示语音数据、提示音文本内容等信 息按照一定的格式保存到提示音库中。\n采用CSSML标记方式调用提示音步骤如下:\n(1)设置标记:在合成文本中按照文本标记语言规范的要 求,使用CSSML标记插入提示音的信息,如提示语音 的索引序号或名称;\n(2)标记解析:合成系统解析CSSML标记文本,对提示 音标记进行分析,得到其携带的信息;\n(3)提取语音:合成系统根据CSSML标记携带的信息, 从提示音音库中提取提示语音数据并解压为线性PCM格 式;\n(4)波形拼接:合成语音和提示音的语音进行能量比例的 调整,使得波形拼接处声音频率与波形和缓;\n(5)数据输出:合成系统输出符合要求的语音数据。\n文本匹配方式调用提示音步骤如下:\n(1)参数设置:用户在语音合成系统中应用程序设置提示 音的合成参数打开合成系统的提示音替换功能;\n(2)文本匹配:合成系统将合成文本的内容和提示音文本 的内容进行比较;\n(3)文本替换:合成系统将合成文本和提示音文本的完全 相同的内容替换成相应的提示音的标识(序号或名称);\n(4)提取语音:合成系统根据提示音标识(序号或名称) 从提示音音库中提取语音数据并解压;\n(5)波形拼接:合成系统将合成语音与替换的提示音语音 进行能量调整,使得波形拼接处声音频率与波形和缓;\n(6)数据输出:合成系统输出符合要求的语音数据。\n本发明上述方法采用计算机软件形式,应用在InterPhonic CE3.0 语音合成系统中,为用户提供一系列提示音应用和管理的用户界面, 使提示音和合成语音的应用实现自然拼接,提高语音服务品质。\n该合成系统目前支持的提示语音文件格式为:单声道量化比特为 8/16位、采样率为6/8/11/16/22/44K的pcm和alaw数据格式,以及 单声道6k/8k的vox数据格式。系统能够自动识别有头的语音文件格 式,对于无头的语音文件,需要用户指定其格式。\n以下对本发明的提示音界面进行描述。\n■界面1(图1):在InterPhonic 3.0语音合成系统的资源管理中心 提示音界面管理提示音资源。可以添加、删除提示音文件,设置 提示音文本。\n■界面2(图2):在InterPhonic 3.0语音合成系统的提示音属性设 置界面设置提示音属性和调节试听效果。其中听音即提供提示音 和我们合成语音的能量调整和拼接效果测听。\n其中各项参数说明:\n名称:当前所设置的提示语音标题,也即该提示语音文件的文件 名。需要用户输入,长度不大于32个字符。\n音库标识:选择匹配音库类型。\n生效:表示当前所设置的提示语音是否立即启用。只有在生效的 情况下,合成文本中才能使用提示语音。\n文本内容:当前所设置的提示语音的文字内容。需要用户输入, 长度不大于4K字符(注意:最后的字符不能是标点符号或空格)。\n语音文件:是指与当前所设置提示语音相匹配的预录语音文件的 位置。\n语音格式:当系统能够识别预录语音文件格式的时候,采样率选 择框变灰;反之,则需要指定语音文件格式。格式说明:\nPCM 6K8B1C:6k8bit单声道pcm数据\nPCM 6K16B1C:6k16bit单声道pcm数据\nPCM 8K8B1C:8k8bit单声道pcm数据\nPCM 8K16B1C:8k16bit单声道pcm数据\n以此类推;\nALAW 6K1C:6k单声道alaw数据\nALAW 8K1C:8k单声道alaw数据\nALAW 11K1C:11k单声道alaw数据\n以此类推;\nVOX6K1C:单声道6k的vox数据\nVOX8K1C:单声道8k的vox数据\n试听功能:单击“试听”按钮,可以试听当前正在设置的提示语音。 用户可以根据需要调整提示语音的音量大小。提示语音后面的女 声“科大讯飞语音合成系统”是系统自动加入的合成语音,目的是 帮助用户根据合成语音的音量调整提示语音的音量,使之更好地 符合合成文本的整体风格。单击“停止”按钮结束试听。\n■界面3(图3):在InterPhonic 3.0语音合成系统的合成演示程序 界面中设置系统参数,确定是否启用提示语音。选择“禁用替换功 能”,合成的语音文件中不出现提示语音,这是默认形式;选择“启 用替换功能”,就是在合成的语音文件中应用提示音。在语音合成 过程中,系统将自动比较被合成文本与提示音资源,并将被合成 文本中与提示音文本完全相同的内容替换成该提示语音。另外, 还可以使用CSSML标记替换被合成文本中指定位置的文字,方 法是:用CSSML的audio标记,其src属性值指定为该提示音的 名称,例如:\n
\n\n:“当 前余额:5907.15元”。\n“第一笔,2003年2 月14日,存入6700.00元”\n\n在合成文本中用CSSML标记引用背景音有三种形式:\n一是用提示音名称,如:\n法律信息
- 2015-04-01
专利权人的姓名或者名称、地址的变更
专利权人由安徽科大讯飞信息科技股份有限公司变更为科大讯飞股份有限公司
地址由230088 安徽省合肥市长江西路669号软件园2号楼变更为230088 安徽省合肥市高新开发区望江西路666号
- 2012-06-20
专利实施许可合同备案的生效、变更及注销
专利实施许可合同备案的生效 IPC(主分类):G10L13/02 合同备案号:2012340000138 让与人:安徽科大讯飞信息科技股份有限公司 受让人:新疆科大讯飞信息科技有限责任公司 发明名称:在语音合成系统中将提示音与文本语音合成输出的方法 申请日:20040601 公开日:20050223 授权公告日:20060503 许可种类:独占许可 备案日期:20120426
- 2008-01-23
专利权人的姓名或者名称、地址的变更
专利权人的姓名或者名称、地址的变更变更事项:专利权人变更前:安徽中科大讯飞信息科技有限公司 地址: 安徽省合肥市长江西路669号软件园2号楼 邮编: 230088变更后:安徽科大讯飞信息科技股份有限公司 地址: 安徽省合肥市长江西路669号软件园2号楼 邮编: 230088
- 2006-05-03
- 2005-04-27
- 2005-02-23
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |