1.一种控制语音通信的方法,其特征在于,该方法包括:
提取语音通话内容的语音特征;
将所述语音特征与敏感词库中的语音样本进行匹配,根据匹配结果对语音通信进行控制;
将所述语音特征与所述敏感词库中的语音样本进行匹配包括:
将所述语音特征作为学习矢量量化(LVQ)神经网络的输入矢量,利用该LVQ网络识别所述语音特征是否与所述语音样本匹配;
其中,所述LVQ神经网络是通过将所述敏感词库中的语音样本作为输入矢量进行训练得到的;
利用该LVQ网络识别所述语音特征是否与所述语音样本匹配包括:
将所述语音特征作为输入矢量x,输入所述LVQ神经网络的传输函数
根据神经元的输出矢量f(x)识别所述语音特征是否与所述语音样本
匹配;
所述提取语音通话内容的语音特征包括:
从采集的语音信号中检测出语音通话的起点和终点,提取所述起点和所述终点之间的语音信号的语音特征。
2.根据权利要求1所述的方法,其特征在于,所述根据匹配结果对语音通信进行控制包括:
根据匹配成功的语音样本个数、类型和内容中的任意一项或多项,按照预先设定的策略对语音通信进行控制。
3.根据权利要求2所述的方法,其特征在于,所述按照预先设定的策略对语音通信进行控制包括:
中断所述语音通信、或进行语音提醒、或屏蔽所述语音通信、或将所述语音通信自动转接至指定号码。
4.一种控制语音通信的系统,其特征在于,该系统包括敏感词库、语音检测模块和控制模块;
所述敏感词库,用于存储语音样本;
所述语音检测模块,用于提取语音通话内容的语音特征,将所述语音特征与所述敏感词库中的语音样本进行匹配;
所述控制模块,用于根据所述语音检测模块的匹配结果对语音通信进行控制;
所述语音检测模块包括LVQ神经网络,用于以所述语音特征为输入矢量,识别所述语音特征是否与所述敏感词库中的语音样本匹配;
其中,所述LVQ神经网络是通过将所述敏感词库中的语音样本作为输入矢量进行训练得到的;
所述LVQ神经网络将所述语音特征作为输入矢量x,输入传输函数
根据神经元的输出矢量f(x)识别所述语音特征是否与所述语音样本匹配;
所述语音检测模块包括端点检测单元、语音特征提取单元和识别单元;
所述端点检测单元,用于从采集的语音信号中检测出语音通话的起点和终点;
所述语音特征提取单元,用于提取所述起点和所述终点之间的语音信号的语音特征;
所述识别单元,用于将所述语音特征与所述敏感词库中的语音样本进行匹配。
5.根据权利要求4所述的系统,其特征在于,
所述控制模块,用于根据成功的语音样本个数、类型和内容中的任意一项或多项,按照预先设定的策略对语音通信进行控制。
6.根据所述权利要求5所述的系统,其特征在于,
所述控制模块,用于中断所述语音通信、或进行语音提醒、或屏蔽所述语音通信、或将所述语音通信自动转接至指定号码。
一种控制语音通信的方法和系统\n技术领域\n[0001] 本发明涉及通信技术领域,尤其涉及一种控制语音通信的方法和系统。\n背景技术\n[0002] 语音通信系统一般包括通信终端、传输网络、交换机等基本单元,下面以无线移动通信系统中的语音通信系统为例,对语音通信过程进行介绍。\n[0003] 无线移动通信系统进行语音通信的过程包括:\n[0004] 当用户发起呼叫请求后,主叫移动台首先通过随机接入信道,向基站发出接入网络的请求。基站接收后,根据广播信道(BCCH)所发布的信道忙、闲信息,为用户寻找出一条合适的业务信道(TCH);再通过寻呼信道(PCH)和允许接入信道(AGCH)去寻找该信道,找到后立即通知该移动台信道已经分配。然后,基站将被叫用户号码,通过移动通信网络中的交换机,传输给地面公用电话网络,找到被叫用户的话机;再经振铃、摘机,完成了通信线路的建立。\n[0005] 通信线路建立后,主叫移动台将语音信号变换成电信号传输到移动通信网络中的基站,再由基站将代表语音的电信号变成电磁频谱,通过移动通信网络中的交换机将电磁频谱传送到受话人的电信网络中,受话人的通信设备接收到无线电波,转换成语音信号。\n[0006] 目前,语音通信系统在对语音通信进行控制时,通常采取的方法是,识别主叫用户号码或者被叫用户号码,根据识别结果控制语音通信,例如,屏蔽特定主叫用户对某一被叫用户的呼叫。\n[0007] 然而,目前这种语音控制方法无法对语音通信实现精确控制,适用场景有限,远不能满足当前的通信需求。例如,目前电信诈骗类通话较多,由于诈骗源的用户号码无法事先获知,因此无法通过现有的语音控制方法来控制电信诈骗类通话。\n发明内容\n[0008] 有鉴于此,本发明提供了一种控制语音通信的方法和系统,以便对语音通信实现精确控制。\n[0009] 本发明的技术方案具体是这样实现的:\n[0010] 一种控制语音通信的方法,该方法包括:\n[0011] 提取语音通话内容的语音特征;\n[0012] 将所述语音特征与敏感词库中的语音样本进行匹配,根据匹配结果对语音通信进行控制。\n[0013] 一种控制语音通信的系统,该系统包括敏感词库、语音检测模块和控制模块;\n[0014] 所述敏感词库,用于存储语音样本;\n[0015] 所述语音检测模块,用于提取语音通话内容的语音特征,将所述语音特征与所述敏感词库中的语音样本进行匹配;\n[0016] 所述控制模块,用于根据所述语音检测模块的匹配结果对语音通信进行控制。\n[0017] 由上述技术方案可见,本发明通过提取语音通话内容的语音特征,将该语音特征与预先存储的敏感词库中的语音样本进行匹配,根据匹配结果对语音通信进行控制,可以实现对语音通话内容的监测,根据监测到的语音通话内容来对语音进行控制,因而能够对语音通信实现精确控制。\n[0018] 本发明的方法和系统可以适用于语音通信的任何场景,例如,对于电信诈骗类通话,可以通过在敏感词库中预先存储电信诈骗类通话中出现频率较高的语音样本,然后如果某一用户开通了本发明方法或系统对应的语音检测服务,则监测其他用户与该某一用户的语音通话内容中是否出现了电信诈骗类通话中出现频率较高的语音样本,根据监测结果进行语音提醒等语音控制服务。\n附图说明\n[0019] 图1是本发明提供的控制语音通信的方法流程图。\n[0020] 图2是LVQ神经网络的组成示意图。\n[0021] 图3是本发明提供的控制语音通信的系统组成示意图。\n[0022] 图4是语音控制系统在移动通信系统中的部署示意图。\n具体实施方式\n[0023] 图1是本发明提供的控制语音通信的方法流程图。\n[0024] 如图1所示,该方法包括:\n[0025] 步骤101,提取语音通话内容的语音特征。\n[0026] 步骤102,将所述语音特征与预先存储的敏感词库中的语音样本进行匹配。\n[0027] 步骤103,根据匹配结果对语音通信进行控制。\n[0028] 其中,所述敏感词库中存储有敏感词的语音样本,根据应用场景的不同,敏感词库中可以存储有不同的语音样本,也可以开辟不同的存储空间分别存储不同应用场景下的语音样本。\n[0029] 例如,当需要监控电信诈骗类通话时,可以在敏感词库中预先存储电信诈骗类通话中出现频率较高的语音样本。\n[0030] 在提取语音通话内容的语音特征时,为了提高语音特征提取的速度和准确性,本发明提出,首先对采集的语音信号进行端点检测,剔除通话空白段的干扰,然后再提取语音特征,换言之,先从采集的语音信号中检测出语音通话的起点和终点,提取所述起点和所述终点之间的语音信号的语音特征。\n[0031] 为了进一步提高语音特征提取的速度和准确性,还可以进行在语音特征提取之前进行其他预处理,例如进行降噪处理。\n[0032] 本发明将语音特征与敏感词库中的语音样本进行匹配的方法可以为,将所述语音特征作为学习矢量量化(Learning Vector Quantization,LVQ)神经网络的输入矢量,利用该LVQ网络识别所述语音特征是否与所述语音样本匹配。其中,所述LVQ神经网络是通过将所述敏感词库中的语音样本作为输入矢量进行训练得到的。\n[0033] 下面对LVQ神经网络在本发明中的应用进行详细介绍:\n[0034] 图2是LVQ神经网络的组成示意图。\n[0035] 如图2所示,LVQ神经网络由三层神经元组成:输入层、隐含层和输出层。\n[0036] LVQ神经网络在输入层和隐含层间为完全连接,而在隐含层和输出层间为部分连接,每个输出神经元与隐含层神经元的不同组相连接。隐含层和输出神经元之间的连接权值为固定值1。输入和隐含层间神经元连接权值建立参考矢量的分量,每个隐含神经元指定一个参考矢量。网络训练时,这些权值被修改。隐含神经元和输出神经元都具有二进制输出值。当某个输入模型被输入网络,参考矢量最接近输入模式的隐含神经元因获得激发而赢得竞争,此隐含神经元产生一个‘1’,其他隐含神经元被迫产生‘0’。与获得竞争的隐含神经元相连的输出神经元输出也为1,因此获得竞争,其他输出神经元均产生‘0’。每个输出神经元表示不同的模式或类别。\n[0037] 本发明通过寻找LVQ神经网络的输入/输出关系建立自动语音识别模型,具体流程如下:\n[0038] (1)输入矢量和目标矢量设计\n[0039] 设计一组输入矢量及输入矢量对应的目标矢量,这两组质量直接决定网络(定义为net)的输入输出关系,设计的优劣直接影响语音识别的效果。\n[0040] 具体地,本发明中,输入矢量选取归一化的敏感词样本特征参数,目标矢量根据敏感词样本数量进行目标矢量的设计,尽量将不同目标矢量设计为无关、正交。\n[0041] (2)网络创建及训练\n[0042] 创建网络模型,设计初始化连接权值。用设计好的输入矢量作为LVQ神经网络的输入,目标矢量作为LVQ神经网络的输出来训练创建的LVQ神经网络。通过反复的训练,直到输入矢量落入目标分类对应的矢量之中。终止训练一般是达到分类准确度预定的阀值或训练的次数超限,其中在训练的次数超限时终止训练一般是出于网络计算速度的考虑。\n[0043] (3)语音识别\n[0044] 将待识别的语音样本数据输入训练好的LVQ神经网络,LVQ神经网络根据决策功能对输入数据进行分类,输出即为识别结果。\n[0045] 具体地,本发明中,将从语音通话内容中提取的语音特征作为输入矢量,输入到预先训练好的LVQ神经网络,该LVQ神经网络对该语音特征进行分类,即与敏感词库中的各个语音样本进行匹配,如果与某个语音样本匹配,则将该语音特征属于该语音样本所属的类别。\n[0046] 采用LVQ神经网络进行语音特征识别时,可以不将语音特征组成的输入矢量进行归一化和正交化处理,只需要计算输入矢量和竞争层之间的距离,即可实现语音识别。当然,为了提高语音识别速度,优选地,将语音特征参数进行归一化处理后再作为输入矢量输入LVQ神经网络。\n[0047] 另外,为了进一步提高LVQ神经网络进行语音特征识别的速度,本发明还提出在LVQ神经网络中采用 作为传输函数,其中,x是神经元输入矢量,即是归一化的语音特征参数,f(x)是神经元输出,即语音特征是否与敏感词库中的语音样本匹配,以及与哪类语音样本匹配。\n[0048] 采用 作为传输函数时,本发明所涉及的LVQ神经网络训练和识\n别的速度都较快。\n[0049] 本申请人对采用 作为传输函数的LVQ神经网络和采用现有\nSigmoid传输函数的LVQ神经网络,在相同环境下采用相同的测试样本分别进行识别,二者的识别速度对比参见表一:\n[0050] 表一中,传输函数1所在列的时间表示采用 作为传输函数的LVQ神经网络识别测试样本所需要的时间,传输函数2所在列的时间表示采用现有Sigmoid传输函数的LVQ神经网络识别测试样本所需要的时间。\n[0051] 表一\n[0052] \n[0053] 由表一可见,在本申请的应用场景下,采用 作为传输函数的LVQ神经网络的识别速度优于采用现有Sigmoid传输函数的LVQ神经网络的识别速度。\n[0054] 本发明根据匹配结果对语音通信进行控制时,可以根据匹配成功的语音样本个数、类型和内容中的任意一项或多项,按照预先设定的策略对语音通信进行控制。例如,可以中断所述语音通信、或进行语音提醒、或屏蔽所述语音通信、或将所述语音通信自动转接至指定号码。其中,语音样本的类型可以根据业务需要,从多个角度确定,例如,将语音样本分为男生、女生或者分为老人、儿童等等。\n[0055] 可见,本发明通过建立敏感词库,利用基于自定义的指数函数的LVQ神经网络建立自动语音识别模型,将用户的通话通过语音识别程序和敏感词库中的声音样本进行对比,若发现用户在通话中涉及到了敏感词库中的信息时,根据用户事先设定的管理策略实时的给予提醒、告警、自动转接指定号码、自动语音屏蔽等语音控制服务,从而提高用户对企业的感知度、认可度。本发明可推广到任何语音通信中。\n[0056] 图3是本发明提供的控制语音通信的系统组成示意图。\n[0057] 如图3所示,该系统包括敏感词库301、语音检测模块302和控制模块303。\n[0058] 敏感词库301,用于存储语音样本。\n[0059] 语音检测模块302,用于提取语音通话内容的语音特征,将所述语音特征与所述敏感词库中的语音样本进行匹配。\n[0060] 控制模块303,用于根据语音检测模块302的匹配结果对语音通信进行控制。\n[0061] 其中,语音检测模块302包括端点检测单元、语音特征提取单元和识别单元。\n[0062] 所述端点检测单元,用于从采集的语音信号中检测出语音通话的起点和终点。\n[0063] 所述语音特征提取单元,用于提取所述起点和所述终点之间的语音信号的语音特征。\n[0064] 所述识别单元,用于将所述语音特征与所述敏感词库中的语音样本进行匹配。\n[0065] 所述识别单元包括LVQ神经网络,用于以所述语音特征为输入矢量,识别所述语音特征是否与所述敏感词库中的语音样本匹配;其中,所述LVQ神经网络是通过将所述敏感词库中的语音样本作为输入矢量进行训练得到的。\n[0066] 所述LVQ神经网络将所述语音特征作为输入矢量,输入传输函数根据神经元的输出矢量f(x)识别所述语音特征是否与所述语音样本匹\n配。\n[0067] 其中,控制模块303,用于根据成功的语音样本个数、类型和内容中的任意一项或多项,按照预先设定的策略对语音通信进行控制。\n[0068] 具体地,控制模块303可以用于中断所述语音通信、或进行语音提醒、或屏蔽所述语音通信、或将所述语音通信自动转接至指定号码。\n[0069] 图3所示系统的工作流程及原理可以描述为:当声音通过一个转换装置输入计算机内部、并以数位方式储存后,语音识别程序便开始以输入的语音样本与事先储存好的语音样本进行对比工作(即提取输入的语音样本的语音特征,然后输入LVQ神经网络进行语音识别)。对比工作完成之后,计算机就会算出最匹配、接近的语音样本序号,从而得知输入计算机的声音是什么意义,进而执行对应的命令。\n[0070] 下面以图4为例,对图3提供的语音控制系统在移动通信系统中的部署情况进行示例性说明。\n[0071] 图4是语音控制系统在移动通信系统中的部署示意图。\n[0072] 如图4所示,在移动通信系统的交换网中部署有交换机、语音检测服务器集群和敏感词库服务器。\n[0073] 其中,数据传输板置于交换机内,外部可以和多台PC或工控机相连,通过交换机的级联使得和外部连接的PC或工控机没有特别限制。这样交换机的内部I/O总线(类比于PC机的PCI或ISA总线)就不再传输实时数据,而只负责非实时性的管理和信令数据,语音或其它实时数据从外部PC直接传入交换机的高速数据传输板。\n[0074] 图3所示系统中的语音检测模块302部署在语音检测服务器集群中,该语音检测服务器集群是语音处理的核心部分,主要完成语音信号预处理、语音特征参数提取、语音样本匹配等重要工作。\n[0075] 其中,语音信号预处理主要包括降噪、端点检测等。端点检测就是从包含语音的一段信号中确定出语音的起点以及终点。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使语音识别系统(例如LVQ神经网络)具有良好的识别性能。\n[0076] 语音特征参数提取是指从语音信号提取一组能够描述语音信号本质特征参数的过程。\n[0077] 语音样本匹配的工作也可以在语音检测服务器集群中完成,具体为,将提取的语音特征参数与敏感词库服务器中的语音样本进行匹配,并输出匹配结果。\n[0078] 敏感词库服务器中存储有语音样本,其中,该语音样本可以是预先处理好以后存储在敏感词库服务器中的,也可以是由语音检测服务器实时采集,然后将采集后的语音样本存储在敏感词服务器中,例如采集某一场景下的通话内容,将该场景下的通话内容的语音特征作为语音样本存储在敏感词库服务器中。\n[0079] 其中,实时采集终端通话内容的语音采集模块一般部署在语音检测服务器集群中,或者部署在该语音检测服务器集群的前端,将采集的语音信号输入到所述语音检测服务器集群中。\n[0080] 根据语音检测服务器集群的匹配进行语音控制的模块可以部署在语音检测服务器集群中,也可以单独部署服务器或者部署在其他服务器中,根据匹配结果进行语音控制。\n[0081] 其中,根据匹配结果进行语音控制所依据的策略可以部署在专门的策略配置库中,也可以采用编程等方式直接部署在用于进行语音控制的模块中。\n[0082] 总之,图4所示的部署情况仅为示例,并非用于限制本发明。\n[0083] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
法律信息
- 2016-03-02
- 2012-09-12
实质审查的生效
IPC(主分类): H04W 12/12
专利申请号: 201010603064.2
申请日: 2010.12.14
- 2012-07-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2001-11-07
|
2001-03-14
| | |
2
| |
2010-08-04
|
2010-02-02
| | |
3
| |
2008-02-13
|
2006-08-11
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |