著录项信息
专利名称 | 通用A律格式语音识别方法 |
申请号 | CN02128761.9 | 申请日期 | 2002-08-07 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2004-02-11 | 公开/公告号 | CN1474377 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | 暂无 | IPC分类号 | 暂无查看分类表>
|
申请人 | 华为技术有限公司 | 申请人地址 | 广东省深圳市南山区科技园科发路1号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 华为技术有限公司 | 当前权利人 | 华为技术有限公司 |
发明人 | 冯敬涛;刘丹亭 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
本发明提供了一种通用A-Law格式语音识别方法,该方法包含以下步骤:从原始的A-Law格式的语音文件中产生含有所有语音的语音特征量的语音模板,然后加载语音模板;检测待识别语音流的语音起、止点,提取起止点之间语音的语音特征量;比较所述的待识别语音流的语音特征量和所述的语音模板的语音特征量,进行语音拆分和识别,从而得到识别结果。采用本发明所述的技术方案,具有语音识别快速准确,成本适当,占用资源小,使用灵活方便等优点,可以普遍适用于语音被限定在有限范围内、对价格敏感、有性能要求的交换和非交换领域。
1、一种通用A律格式语音识别方法,其特征在于,该方法包含 以下步骤:
A、从最初的A律格式的语音文件中产生含有所有语音的语音特 征量的语音模板,然后加载语音模板;
B、检测待识别语音流的语音起、止点,提取起止点之间语音的 语音特征量;
C、比较所述的待识别语音流的语音特征量和所述的语音模板的 语音特征量,进行语音拆分和识别,从而得到识别结果;
所述步骤B中的检测待识别语音流的语音起、止点具体包含以下 步骤:
B1、确定语音数据块和语音能量阈值的大小;
B2、确定语音起点,如果待识别语音流的连续多帧的能量大于语 音能量阈值,即将第一次大于语音能量阈值的帧作为语音候补起点, 再根据语音候补起点的前多个语音数据块长度的位置作为语音起点;
B3、确定语音终点,如果待识别语音流的连续多帧的能量小于语 音能量阈值,即将第一次小于语音能量阈值的帧作为语音候补终点, 再根据语音候补起点的前多个语音数据块长度的位置作为语音终点。
2、如权利要求1所述的一种通用A律格式语音识别方法,其特征 在于,步骤A和步骤C中所述的语音特征量是指时域分析特征量和频 域分析特征量。
3、如权利要求1所述的一种通用A律格式语音识别方法,其特征 在于,步骤C中所述的进行语音拆分和识别更具体地讲包括如下步骤: C1、拆分语音信息;C2、分析语句组成;C3、分析语音组成,得到 语音条数和相应编码。
4、如权利要求1所述的一种通用A律格式语音识别方法,其特征 在于,步骤A中所述的语音模板的语音特征量更进一步包括快速匹配 用语音特征量和精确匹配用语音特征量。
技术领域\n本发明属于语音识别领域,具体来说是涉及一种通用A律格式语音 识别方法。\n背景技术\n随着智能网产品的不断发展和丰富,其与语音相关的业务越来越丰 富多彩、灵活多变。而在智能网产品测试中,实现测试自动化的一个关 键技术就是对业务语音的识别,可是目前普遍采用的是最原始的手工拨 打电话的方式,语音是否正确需要测试人员用耳朵来听。这种测试方式 因与整个测试的完备性、充分性和测试人员本身有很大关系,所以效率 比较低下。\n为了解决上述问题,现有技术一般采用传统的ASR(Auto Speech Recognition,自动语音识别)技术,该技术方案首先将语音转换成为 文本,然后对文本进行识别比较。但是价格非常昂贵,通常是按时隙来 计费,尤其是当语音被限定在有限的范围内时更是如此,另外该技术方 案还存在识别速度较慢的缺点。但在智能业务中,放音之后一般只有3-5 秒的时间,如果在这段时间里面不能完成语音识别并拨号,业务就会超 时从而运行超时分支,特别是进行性能测试时,需要同时对多个时隙的 语音进行识别,结合ASR技术的缺点及智能业务的需求,可看出对智能 业务而言,ASR技术方案从价格和性能上都不甚理想,尤其是那些对价 格和性能比较敏感的非交换领域,这种问题更加突出。\n发明内容\n针对上述问题,本发明提出了一种语音识别快速准确,成本适当, 可以广泛应用于语音被限定在有限范围内的交换和非交换领域的通用A 律格式语音识别方法。\n为实现上述目的,本发明的通用A律格式语音识别方法具体步骤为:\nA、从原始的A律格式的语音文件中产生含有所有语音的语音特征 量的语音模板,然后加载语音模板;\nB、检测待识别语音流的语音起、止点,提取起止点之间语音的语 音特征量;\nC、比较所述的待识别语音流的语音特征量和所述的语音模板的语 音特征量,进行语音拆分和识别,从而得到识别结果。\n其中所述步骤B中的检测待识别语音流的语音起、止点更具体地说 包含以下步骤:\nB1、确定语音数据块和语音能量阈值的大小;\nB2、确定语音起点,如果待识别语音流的连续多帧的能量大于语音 能量阈值,即将第一次大于语音能量阈值的帧作为语音候补起点,再根 据语音候补起点的前多个语音数据块长度的位置作为语音起点;\nB3、确定语音终点,如果待识别语音流的连续多帧的能量小于语音 能量阈值,即将第一次小于语音能量阈值的帧作为语音候补终点,再根 据语音候补起点的前多个语音数据块长度的位置作为语音终点。\n其中步骤C中所述的进行语音拆分和识别更具体地讲包括如下步 骤:C1、拆分语音信息;C2、分析语句组成;C3、分析语音组成,得 到语音条数和相应编码。\n为了进一步缩小本发明的成本和增加其可用性,其中步骤A中所述 的语音模板的语音特征量更进一步包括快速匹配用语音特征量和精确 匹配用语音特征量;其中步骤A和步骤C中所述的语音特征量是指时域 分析特征量和频域分析特征量。\n采用本发明所述的技术方案,具有如下的优点:\n1、语音识别快速准确,语音识别的准确率可高达100%,而且速度 很快;在多线程应用程序中进行多路识别,同样保持很高的准确率和速 度。\n2、成本适当,可以普遍适用于语音被限定在有限范围内、对价格 敏感、有性能要求的交换和非交换领域。\n3、占用资源小。\n4、使用灵活方便,部分支持模糊查询;例如使用中经常出现的系 统采音不及时的现象发生时,语音的头部信息就会有缺失问题,本发明 能够识别这种语音,可以容忍语音头部信息有相当长时间的缺失;又如 多音字问题,“分”这个字有两个发音:时分秒的分和元角分的分,录 制的时候分两次进行,而现有的ASR技术只能识别一个字,本发明却可 以从语音编号上加以区分。\n下面结合附图和具体实施例来详细描述本发明。\n附图说明\n图1是本发明的方法流程图。\n具体实现方式\n有线智能网业务放音是通用A律格式语音的典型代表,它的放音基 本涵盖了其他产品业务的放音情况,下面以有线智能网业务语音为例说 明本发明。\n首先介绍有线智能网业务语音的基本情况。此类语音按用途分,可 分为:业务流程语音和基本语音两种子语音,前者是指控制流程的语音, 可以单独使用,可以和后者一起使用,不同的业务有不同的业务流程语 音,而后者必须和业务流程语音结合使用,其内容不随业务的改变而改 变,主要包括:“0”、“1”-“9”、“十”、“百”、“千”、“万”、 “亿”、“元”、“角”、“分”、“年”、“月”、“日”、“时”、 “分”、“秒”等,上述语音间隔很短的子语音复合形成语句。原始的 A律格式的语音文件可以一条语句,也可以是间隔较长的多条语句组成。 本实施例是这样完成待识别语音和原始的A律格式的语音文件比较的, 具体步骤如下:\n一、从原始的A律格式的语音文件中产生含有所有语音的语音特征 量的语音模板,然后加载语音模板;\n业务平台发消息给交换机,交换机从语音资源中提取相应的原始的 A律格式的语音文件送入中继话路时隙中,业务平台将从该原始的A律 格式的语音文件中产生含有所有语音的语音特征量的语音模板,即提取 以下主要参数:等分段轨迹长、语音起点帧位置、用于快速匹配识别的 能量阈值和能量参数系列、用于精确匹配识别的特征矢量阈值和特征矢 量参数系列、原始语音文件名和语音文件编码,从而生成包含所有业务 流程语音和基本语音特征的语音模板,然后将其加载初始化。\n二、检测待识别语音流的语音起、止点,提取起止点之间语音的语 音特征量。其中检测待识别语音流的语音起、止点,更具体而言,包括 以下步骤:\na、确定语音数据块和语音能量阈值的大小;假设该待识别语音的 采样率为8KHz,帧周期为25ms,帧长为25ms,首先确定输入语音数据 块的大小为80ms,而语音能量阈值为30。\nb、确定语音起点,如果待识别语音流的连续多帧的能量大于语音 能量阈值,即将第一次大于语音能量阈值的帧作为语音候补起点,再根 据语音候补起点的前多个语音数据块长度的位置作为语音起点;根据语 音帧能量 其中s(i)为语音信号,判断语音段,可以假设 如果待识别语音流的连续3帧,即时间周期为3×25=75ms的能量大于语音 能量阈值30,可将第一次大于语音能量阈值的帧作为语音候补起点,再 根据语音候补起点的前3个语音数据块长度,即时间周期为3×80=240ms 的位置作为语音起点。\nc、确定语音终点,如果待识别语音流的连续多帧的能量小于语音 能量阈值,即将第一次小于语音能量阈值的帧作为语音候补终点,再根 据语音候补起点的前多个语音数据块长度的位置作为语音终点;根据语 音帧能量 其中s(i)为语音信号,判断语音段,可以假设 如果待识别语音流的连续40帧,即时间周期为40×25=1000ms的能量大于 语音能量阈值30,可将第一次小于语音能量阈值的帧作为语音候补终 点,再根据语音候补起点的前2个语音数据块长度,即时间周期为 2×80=160ms的位置作为语音终点。\n通过以上步骤可以准确检测出待识别语音流是否存在,是否结束, 适当的配置各个参数,也可以避免将短句之间的间隔当成语音的结束。\n三、比较所述的待识别语音流的语音特征量和所述的语音模板的语 音特征量,进行语音拆分和识别,从而得到识别结果。如该待识别语音 流为:“您的余额是10元5角。打电话请按1,查询余额请按2”,起止 点之间语音先被切分,也就是具体分析语句包括“您的余额是10元5角”、 “打电话请按1”、“查询余额请按2”,其中各语句所包含的语音是“您 的余额是”,“10”、“元”、“5”、“角”,“打电话请按1”,“查 询余额请按2”,从而得到7条语音条数和相应编码分别为:06800018、 00000001、0000000a、00000031、00000045、00000009、0680000d……。 然后分别和所述的语音模板的语音特征量进行比较,找出最相近的一 个,即得到各自的语音描述为“您的余额是”,“一”和“十”、“元”、 “五”、“角”,“打电话请按1”,“查询余额请按2”,从而得到识 别结果。\n为了进一步增加本发明的其可用性,可以将本发明通过动态库 (DLL)的形式来实现,如将本发明分成五个函数功能,即语音起始点检 测功能、语音识别功能、语音模板制作功能、初始化功能、语音识别结 束功能,具体而言,语音起始点检测功能完成上述的步骤一,语音模板 制作功能和初始化功能完成上述的步骤二,语音识别功能完成步骤三, 最后语音识别结束功能将所占用的系统资源释放。五个功能和动态库 (DLL)中的五个函数相对应,使用非常灵活方便,而且占用的系统的 CPU、内存等资源都很小。
法律信息
- 2014-10-01
未缴年费专利权终止
IPC(主分类): G10L 15/10
专利号: ZL 02128761.9
申请日: 2002.08.07
授权公告日: 2005.08.03
- 2005-08-03
- 2004-04-21
- 2004-02-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |