一种语音通话方法及装置

发明专利有效专利

申请号：
CN201310404931.3
IPC分类号：H04M1/26H04M1/60G10L21/0208G10L21/0316
申请日期：
2013-09-06
申请人：
中兴通讯股份有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种语音通话方法及装置
申请号	CN201310404931.3	申请日期	2013-09-06
法律状态	授权	申报国家	中国
公开/公告日	2015-03-18	公开/公告号	CN104427068A
优先权	暂无	优先权号	暂无
主分类号	H04M1/26 ? IPC结构图谱： H 电学 H9 电学 H04 电通信技术 H04M 电话通信（通过电话电缆控制其他设备，但不包括电话交换设备的电路入G08） H04M1/00 分局设备，例如用户使用的（交换机提供的用户服务或设备入H04M 3/00；预付费电话硬币箱入H04M 17/00；电流供给装置入H04M 19/08）〔1，7〕 H04M1/26 呼叫用户的装置（H04M 1/66优先）〔1，7〕	IPC分类号	H04M1/26;H04M1/60;G10L21/0208;G10L21/0316查看分类表>
申请人	中兴通讯股份有限公司	申请人地址	广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦*** 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	中兴通讯股份有限公司	当前权利人	中兴通讯股份有限公司
发明人	康健超
代理机构	北京派特恩知识产权代理有限公司	代理人	张颖玲;王黎延

摘要

本发明公开了一种语音通话方法，所述方法包括：接收通话语音X(t)，并对所述语音X(t)进行去噪，得到去噪后的语音X0(t)；确定所述去噪后的语音X0(t)的幅度均值小于存储的原语音Y(t)的幅度均值时，对所述去噪后的语音X0(t)进行增强后输出。本发明同时还公开了一种语音通话装置。采用本发明的技术方案，能够在不允许大声讲话的场合中也能进行清晰的通话。

1.一种语音通话方法，其特征在于，所述方法包括：
接收通话语音X(t)，对所述语音X(t)和存储的原语音Y(t)进行快速傅里叶变换，得到所述语音的频域信号X(w)和所述原语音的频域信号Y(w)；根据所述语音的频域信号X(w)和所述原语音的频域信号Y(w)，确定所述语音中噪声的频域信号；将所述语音的频域信号X(w)与所述噪声的频域信号进行卷积，确定去噪后的语音的频域信号；对所述去噪后的语音的频域信号进行逆快速傅里叶变换，得到去噪后的语音X0(t)；
确定所述去噪后的语音X0(t)的幅度均值小于存储的原语音Y(t)的幅度均值时，对所述去噪后的语音X0(t)进行增强后输出。
2.根据权利要求1所述的方法，其特征在于，所述方法还包括：存储原语音Y(t)，并提取所述原语音Y(t)的幅度均值。
3.根据权利要求1所述的方法，其特征在于，所述对所述去噪后的语音进行增强为：根据所述原语音Y(t)的幅度均值对所述去噪后的语音X0(t)进行增强，包括：
确定所述去噪后的语音X0(t)的当前幅度均值；
根据所述原语音Y(t)的原幅度均值和所述当前幅度均值确定语音增强系数n；
根据所述语音增强系数n对所述去噪后的语音X0(t)进行增强。
4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：确定所述去噪后的语音X0(t)的幅度均值大于等于所述原语音Y(t)的幅度均值时，将所述去噪后的语音X0(t)直接输出。
5.一种语音通话装置，其特征在于，所述装置包括接收单元、去噪单元、处理单元和输出单元；其中，
所述接收单元，用于接收通话语音X(t)；
所述去噪单元包括第一变换子单元、第一确定子单元、第二确定子单元和第二变换子单元；
其中，所述第一变换子单元，用于对所述语音X(t)和存储的原语音Y(t)进行快速傅里叶变换，得到所述语音的频域信号X(w)和所述原语音的频域信号Y(w)；所述第一确定子单元，用于根据所述语音的频域信号X(w)和所述原语音的频域信号Y(w)，确定所述语音中噪声的频域信号；所述第二确定子单元，用于将所述语音的频域信号X(w)与所述噪声的频域信号进行卷积，确定去噪后的语音的频域信号；所述第二变换子单元，用于对去燥后的语音的频域信号进行逆快速傅里叶变换，得到去噪后的语音X0(t)；
所述处理单元，用于确定所述去噪后的语音X0(t)的幅度均值小于存储的原语音Y(t)的幅度均值时，对所述去噪后的当前语音X0(t)进行增强；
所述输出单元，用于对增强后的语音进行输出。
6.根据权利要求5所述的装置，其特征在于，所述装置还包括：存储单元和提取单元；其中，
所述存储单元，用于存储原语音Y(t)；
所述提取单元，用于提取所述原语音Y(t)的幅度均值。
7.根据权利要求5所述的装置，其特征在于，所述处理单元，进一步用于根据所述原语音Y(t)的幅度均值对所述去噪后的语音X0(t)进行增强，具体的，所述处理单元包括第三确定子单元、第四确定子单元和增强子单元，其中：
所述第三确定子单元，用于确定所述去噪后的语音X0(t)的当前幅度均值；
所述第四确定子单元，用于根据所述原语音Y(t)的原幅度均值和所述当前幅度均值确定语音增强系数n；
所述增强子单元，用于根据所述语音增强系数n对所述去噪后的语音X0(t)进行增强。
8.根据权利要求5至7任一项所述的装置，其特征在于，所述处理单元还用于：确定所述去噪后的语音X0(t)的幅度均值大于等于所述原语音Y(t)的幅度均值时，触发所述输出单元；
对应的，所述输出单元，还用于将所述去噪后的语音X0(t)直接输出。

一种语音通话方法及装置
技术领域
[0001] 本发明涉及移动通信领域的语音识别技术，尤其涉及了一种在周围环境不允许用户大声讲话的场合中的语音通话方法及装置。
背景技术
[0002] 随着移动通信技术的不断发展，移动终端如手机等已经成为人们日常生活中不可缺少的通信设备，其最主要的作用就是进行通话，人们通过通话来增强和联络感情。但是，用户在通话时经常会受到周围环境的影响，在某些环境中接到电话后不能大声讲话，只能通过很小的声音来表达意思，比如在看电影、开会等场合，这样，对方可能无法听清楚用户的声音，影响双方交流。
[0003] 目前，一般的移动终端在通话时，都只是通过麦克风将声音接收并传输给对方，但在不方便大声讲话的场合中接到电话的用户在接电话时只能低头小声说，同时还伴有其他声音，如开会时演讲者的声音、看电影时电影屏幕的声音等，这样，如果直接将声音传输给对方就会使对方不好进行辨认，影响通话质量；因此，亟需一种语音通话方法来保证这种安静场合的通话效果。
发明内容
[0004] 有鉴于此，本发明实施例的主要目的在于提供一种语音通话方法及装置，能够在周围环境不允许用户大声讲话的场合中也能进行清晰地通话。
[0005] 为达到上述目的，本发明的技术方案是这样实现的：
[0006] 本发明提供了一种语音通话方法，所述方法包括：接收通话语音X(t)，并对所述语音X(t)进行去噪，得到去噪后的语音X0(t)；确定所述去噪后的语音X0(t)的幅度均值小于存储的原语音Y(t)的幅度均值时，对所述去噪后的语音 X0(t)进行增强后输出。
[0007] 上述方案中，所述方法还包括：存储原语音Y(t)，并提取所述原语音Y(t)的幅度均值。
[0008] 上述方案中，所述对所述语音X(t)进行去噪，包括：分别对所述语音X(t)和存储的原语音Y(t)进行快速傅里叶变换，得到所述语音的频域信号X(w)和所述原语音的频域信号Y(w)；根据所述语音的频域信号X(w)和所述原语音的频域信号Y(w)，确定所述语音中噪声的频域信号；将所述语音的频域信号X(w)与所述噪声的频域信号进行卷积，确定所述去噪后的语音的频域信号；对所述去燥后的语音的频域信号进行逆快速傅里叶变换，得到去噪后的语音X0(t)。
[0009] 上述方案中，所述对所述去噪后的语音进行增强为：根据所述原语音Y(t)的幅度均值对所述去噪后的语音X0(t)进行增强，包括：确定所述去噪后的语音X0(t)的当前幅度均值；根据所述原语音Y(t)的原幅度均值和所述当前幅度均值确定语音增强系数n；根据所述语音增强系数n对所述去噪后的语音X0(t)进行增强。
[0010] 上述方案中，所述方法还包括：确定所述去噪后的语音X0(t)的幅度均值大于等于所述原语音Y(t)的幅度均值时，将所述去噪后的语音X0(t)直接输出。
[0011] 本发明还提供了一种语音通话装置，所述装置包括接收单元、去噪单元、处理单元和输出单元；其中，所述接收单元，用于接收通话语音X(t)；所述去噪单元，用于对所述语音X(t)进行去噪，得到去噪后的语音X0(t)；所述处理单元，用于确定所述去噪后的语音X0(t)的幅度均值小于存储的原语音Y(t)的幅度均值时，对所述去噪后的当前语音X0(t)进行增强；所述输出单元，用于对增强后的语音进行输出。
[0012] 上述方案中，所述装置还包括：存储单元和提取单元；其中，所述存储单元，用于存储原语音Y(t)；所述提取单元，用于提取所述原语音Y(t)的幅度均值。
[0013] 上述方案中，所述去噪单元进一步包括第一变换子单元、第一确定子单元、第二确定子单元和第二变换子单元；其中，所述第一变换子单元，用于分别对所述语音X(t)和存储的原语音Y(t)进行快速傅里叶变换，得到所述语音的频域信号X(w)和所述原语音的频域信号Y(w)；所述第一确定子单元，用于根据所述语音的频域信号X(w)和所述原语音的频域信号Y(w)，确定所述语音中噪声的频域信号；所述第二确定子单元，用于将所述语音的频域信号X(w)与所述噪声的频域信号进行卷积，确定所述去噪后的语音的频域信号；所述第二变换子单元，用于对去燥后的语音的频域信号进行逆快速傅里叶变换，得到去噪后的语音X0(t)。
[0014] 上述方案中，所述处理单元，进一步用于根据所述原语音Y(t)的幅度均值对所述去噪后的语音X0(t)进行增强，具体的，所述处理单元包括第三确定子单元、第四确定子单元和增强子单元，其中：所述第三确定子单元，用于确定所述去噪后的语音X0(t)的当前幅度均值；所述第四确定子单元，用于根据所述原语音Y(t)的原幅度均值和所述当前幅度均值确定语音增强系数n；所述增强子单元，用于根据所述语音增强系数n对所述去噪后的语音X0(t)进行增强。
[0015] 上述方案中，所述处理单元还用于：确定所述去噪后的语音X0(t)的幅度均值大于等于所述原语音Y(t)的幅度均值时，触发所述输出单元；对应的，所述输出单元，还用于将所述去噪后的语音X0(t)直接输出。
[0016] 本发明实施例提供的语音通话方法及装置，接收通话语音X(t)后，先对所述语音X(t)进行去噪，得到去噪后的语音X0(t)；再在确定所述去噪后的语音X0(t)的幅度均值小于存储的原语音Y(t)的幅度均值时，对所述去噪后的语音X0(t)进行增强后输出；如此，能够使用户在不方便大声说话的场合下仍然能够得到较好的通话效果，同时，还能将周围的杂音进行有效去除，接听的对方不会再受听不清的困扰，另外也不会影响到周围的人。
附图说明
[0017] 图1为本发明实施例语音通话方法的实现流程示意图；
[0018] 图2为本发明实施例中对所述去噪后的语音进行增强的一种实现流程示意图；
[0019] 图3为本发明实施例语音通话装置的组成结构示意图；
[0020] 图4为图3中去噪单元的组成结构示意图；
[0021] 图5为图3中增强单元的组成结构示意图。
具体实施方式
[0022] 本发明实施例的基本思想是：接收通话语音后，先对所述语音进行去噪，得到去噪后的语音；再在确定所述去噪后的语音的幅度均值小于存储的原语音的幅度均值时，对所述去噪后的语音进行增强后输出。
[0023] 下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
[0024] 图1为本发明实施例语音通话方法的实现流程示意图，如图1所示，所述语音通话方法的具体流程如下：
[0025] 步骤101，存储原语音Y(t)，并提取所述原语音Y(t)的幅度均值；
[0026] 具体的，用户可以寻找一个没有噪声和杂音的安静场合，打开录音装置，录入一段自己正常说话时的声音作为原语音Y(t)。
[0027] 这里，所述提取原语音Y(t)的幅度均值的目的是：当判断用户在通话过程中的语音的幅度均值小于正常说话的原语音的幅度均值时，为了防止对方听不清楚，可根据原语音的幅度均值对正在通话的语音的幅度均值进行增强，以使对方能够清楚的听到用户的讲话。
[0028] 其中，所述提取所述原语音Y(t)的幅度均值，本领域的技术人员可以根据各种现有技术来实现，这里不再赘述。
[0029] 步骤102，接收通话语音X(t)，并对所述语音X(t)进行去噪，得到去噪后的语音X0(t)；
[0030] 这里，所述接收通话语音的环境可以是任何场合，尤其是指一些不方便大声讲话的场合，例如：看电影、看歌剧、看话剧、开会、工作等的场合。用户在这些不方便大声讲话的场合，接到呼入电话或进行呼出电话后不能大声讲话，只能通过很小或低的声音来表达意思，从而会使对方无法听清楚用户的声音，进而影响双方交流的场合。
[0031] 这里，所述语音X(t)可以是通过麦克风等接收的语音；所述语音X(t)包括：用户音量很小的声音和远大于用户说话声音的音量的背景噪声。
[0032] 这里，所述对所述语音X(t)进行去噪，包括：
[0033] 步骤1021，分别对所述语音X(t)和存储的原语音Y(t)进行快速傅里叶变换（FFT，Fast Fourier Transform），得到所述语音的频域信号X(w)和所述原语音的频域信号Y(w)；
[0034] 步骤1022，根据所述语音的频域信号X(w)和原语音的频域信号Y(w)，确定所述语音中噪声的频域信号；
[0035] 具体的，将所述语音的频域信号X′(w)与原语音的频域信号Y′(w)相减，得到噪声的频域信号；
[0036] 步骤1023，将所述语音的频域信号X(w)与所述噪声的频域信号进行卷积，确定所述去噪后的语音的频域信号；
[0037] 步骤1024，对所述去燥后的语音的频域信号进行逆快速傅里叶变换（IFFT，Inverse Fast Fourier Transform），得到去噪后的语音X0(t)。
[0038] 这里，在分别对所述语音X(t)和存储的原语音Y(t)进行快速傅里叶变换之前，所述对所述语音进行去噪还包括：分别将所述语音X(t)和所述原语音Y(t)进行加汉明（Hanning）窗处理。
[0039] 这里，所述对所述语音X(t)进行去噪是为了去除远大于用户声音的背景噪声。在现有技术中，对语音需进行去噪的方法有很多，本领域的技术人员可以根据各种现有技术对语音进行去噪。
[0040] 步骤103，确定所述去噪后的语音X0(t)的幅度均值小于存储的原语音Y(t) 的幅度均值时，对所述去噪后的语音X0(t)进行增强后输出。
[0041] 这里，所述增强是指对去噪后的语音X0(t)的幅度进行提升，以将用户语音的音量进行放大，这样，在不允许大声说话的场合，通话双方就可以进行正常清晰的通话。
[0042] 优选的，所述对所述去噪后的语音X0(t)进行增强为：根据原语音Y(t)的幅度均值对所述去噪后的语音X0(t)进行增强。
[0043] 优选的，本发明实施例语音通话方法还包括：确定所述去噪后的语音X0(t)的幅度均值大于等于存储的原语音Y(t)的幅度均值时，将所述去噪后的语音X0(t)直接输出。
[0044] 图2为本发明实施例中对所述去噪后的语音进行增强的一种实现流程示意图，如图2所示，根据原语音Y(t)的幅度均值对所述去噪后的语音X0(t)进行增强，具体包括以下步骤：
[0045] 步骤201，确定所述去噪后的语音X0(t)的当前幅度均值；
[0046] 步骤202，根据所述原语音Y(t)的原幅度均值和所述当前幅度均值确定语音增强系数n；
[0047] 具体的，假设存储的原语音Y(t)的原幅度均值为PY(t)P，假设所述当前幅度均值为PX0(t)P，用所述PY(t)P除以所述PX0(t)P得到所述语音增强系数n；
[0048] 步骤203，根据所述语音增强系数n对所述去噪后的语音X0(t)进行增强。
[0049] 具体的，将所述去噪后的语音X0(t)乘以所述语音增强系数n，得到用户正常说话时音量的语音数据；在实际的应用过程中，本发明实施例中还应包括：将对所述去噪后的语音X0(t)进行增强后得到的正常语音从数字信号转化为模拟信号后进行输出，相应的，在通过麦克风等接收含有噪声的语音X(t)时，还应该将所述X(t)转化为数字信号，这里，所述模拟信号转数字信号，以及数字信号转模拟信号，本领域的技术人员均可以采用各种现有技术来实现，这里不再赘述。
[0050] 图3为本发明实施例语音通话装置的组成结构示意图，如图3所示，本发明实施例语音通话装置，包括接收单元31、去噪单元32、处理单元33和输出单元34；
[0051] 所述接收单元31，用于接收通话语音X(t)；
[0052] 所述去噪单元32，用于对所述语音X(t)进行去噪，得到去噪后的语音X0(t)；
[0053] 所述处理单元33，用于确定所述去噪后的语音X0(t)的幅度均值小于存储的原语音Y(t)的幅度均值时，对所述去噪后的语音X0(t)进行增强；
[0054] 所述输出单元34，用于对增强后的语音进行输出。
[0055] 优选的，所述装置还包括：存储单元和提取单元；其中，所述存储单元，用于存储原语音Y(t)；所述提取单元，用于提取所述原语音的幅度均值。
[0056] 优选的，所述处理单元33还用于：确定所述去噪后的语音X0(t)的幅度均值大于等于所述原语音Y(t)的幅度均值时，触发所述输出单元34；相应的，所述输出单元34，还用于将所述去噪后的语音X0(t)直接输出。
[0057] 优选的，所述处理单元33对所述去噪后的语音X0(t)进行增强为：根据所述原语音Y(t)的幅度均值对所述去噪后的语音X0(t)进行增强。
[0058] 图4为图3中去噪单元的组成结构示意图，如图4所示，所述去噪单元32进一步包括第一变换子单元41、第一确定子单元42、第二确定子单元43和第二变换子单元44；其中，[0059] 所述第一变换子单元41，用于分别对所述语音X(t)和存储的原语音Y(t)进行快速傅里叶变换，得到所述语音的频域信号X(w)和所述原语音的频域信号Y(w)；
[0060] 所述第一确定子单元42，用于根据所述语音的频域信号X(w)和所述原语音的频域信号Y(w)，确定所述语音中噪声的频域信号；
[0061] 所述第二确定子单元43，用于将语音的频域信号X(w)与所述噪声的频域信号进行卷积，确定所述去噪后的语音的频域信号；
[0062] 所述第二变换子单元44，用于对去燥后的语音的频域信号进行逆快速傅里叶变换，得到去噪后的语音X0(t)。
[0063] 图5为图3中处理单元的组成结构示意图，如图5所示，所述处理单元33进一步包括第三确定子单元51、第四确定子单元52和增强子单元53，其中：
[0064] 所述第三确定子单元51，用于确定所述去噪后的语音X0(t)的当前幅度均值；
[0065] 所述第四确定子单元52，用于根据所述原语音Y(t)的原幅度均值和所述当前幅度均值确定语音增强系数n；
[0066] 所述增强子单元53，用于根据所述语音增强系数n对所述去噪后的语音X0(t)进行增强。
[0067] 本发明实施例在具体实现的过程中，还可以相应的设置为一种通话模式，当用户进入不方便说话的场合时，便可以打开所述通话模式，这时，当用户有电话需要呼出或者有电话需要呼入时，就可以执行本发明实施例语音通话方法的处理流程。与现有技术相比，采用语音识别技术对用户的声音进行识别，将语音中的噪声过滤掉，然后放大输出到对方，使得用户在小声说话的情况下，对方仍能够得到较好的通话效果，同时将周围的杂音进行有效去除，不用再受对方听不清的困扰，同时也不会影响到周围的人。
[0068] 本领域的技术人员应当理解，图4至图5所示的语音通话装置中的各处理单元、子单元以及模块的实现功能可参照前述语音通话方法的相关描述而理解。本领域技术人员还应当理解，图4至图5所示的语音通话装置中各处理单元、子单元以及模块可通过所述移动终端的处理器而实现，也可通过具体的逻辑电路而实现。
[0069] 以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN103237111A	2013-08-07	2013-04-28	一种扩大通话音量的方法及移动终端无效专利	广东欧珀移动通信有限公司
2	CN101056322A	2007-10-17	2006-04-13	一种在移动通讯终端上叠加背景声的装置及方法无效专利	中兴通讯股份有限公司
3	CN101370322A	2009-02-18	2008-09-12	麦克风增益调节的方法及通信设备无效专利	深圳华为通信技术有限公司
4	CN102006349A	2011-04-06	2010-11-25	会议模式下增强手机通话质量的方法及其实现装置有效专利	惠州TCL移动通信有限公司
5	JP4835611B2	暂无	2008-03-03	Echo reduction method and apparatus有效专利	岩崎通信機株式会社