1.一种说话人识别方法,其特征在于,包括:
采集不同信道下的用户注册语音信号;
从采集的所述语音信号中分别提取声纹特征序列;
对于每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;
对得到的对应不同信道的声纹模型进行合并,生成对应所述用户的说话人模型;
根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。
2.如权利要求1所述的方法,其特征在于,所述采集不同信道下的用户注册语音信号包括:
利用选定的多个不同的麦克风分别采集所述用户注册语音信号。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
检测不同麦克风与不同用户端设备的信道相似度;
根据得到的信道相似度选定多个不同的麦克风。
4.如权利要求3所述的方法,其特征在于,所述检测不同麦克风与不同用户设备的信道相似度包括:
将所述不同麦克风和所述不同用户端设备置于音箱的同一波束面上;
通过所述音箱播放用户录音;
利用所述不同麦克风和所述不同用户端设备对所述用户录音进行同步采集;
对于每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。
5.如权利要求4所述的方法,其特征在于,所述根据得到的相似度选定多个不同的麦克风包括:
利用线性函数D=S-PESQ将所述信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数;
以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值分布的麦克风;
根据聚类结果选定多个不同的麦克风。
6.如权利要求4所述的方法,其特征在于:
所述不同麦克风包括以下任意一种或多种:动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;
所述不同用户端设备包括以下任意一种或多种:手机、录音笔。
7.如权利要求6所述的方法,其特征在于,对得到的对应不同信道的声纹模型进行合并包括:
将对应不同信道的声纹模型加权平均。
8.一种说话人识别系统,其特征在于,包括:
采集单元,用于采集不同信道下的用户注册语音信号;
特征提取单元,用于从所述采集单元采集的所述语音信号中分别提取声纹特征序列;
训练子单元,用于对每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;
合并子单元,用于对所述训练子单元得到的对应不同信道的声纹模型进行合并,生成对应所述用户的说话人模型;识别单元,用于根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。
9.如权利要求8所述的系统,其特征在于,
所述采集单元,具体用于利用选定的多个不同的麦克风分别采集所述用户注册语音信号。
10.如权利要求9所述的系统,其特征在于,所述系统还包括:
检测子系统,用于检测不同麦克风与不同用户端设备的信道相似度;
选择单元,用于根据得到的信道相似度选定多个不同的麦克风。
11.如权利要求10所述的系统,其特征在于,所述检测子系统包括:
音箱,用于播放用户录音;
多个不同麦克风和多个不同用户设备,用于在所述音箱的同一波束面上同步采集所述音箱播放的用户录音;
计算单元,用于对每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。
12.如权利要求11所述的系统,其特征在于,所述选择单元包括:
映射子单元,用于利用线性函数D=S-PESQ将所述信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数;
聚类子单元,用于以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值的麦克风;
选择子单元,用于根据所述聚类子单元的聚类结果选定多个不同的麦克风。
13.如权利要求11所述的系统,其特征在于:
所述不同麦克风包括以下任意一种或多种:动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;
所述不同用户端设备包括以下任意一种或多种:手机、录音笔。
14.如权利要求8所述的系统,其特征在于,
合并子单元,具体用于将对应不同信道的声纹模型加权平均,生成对应所述用户的说话人模型。
说话人识别方法及系统\n技术领域\n[0001] 本发明涉及身份识别技术领域,特别涉及一种说话人识别方法及系统。\n背景技术\n[0002] 说话人识别即根据采集到的语音信号判断说话人身份,该技术主要有两个方面的应用,即说话人确认和说话人识别。说话人确认是指判断当前输入语音是否为其申明的目标说话人的发音,属于一对一的判断问题;而说话人识别是指从目标说话人集合中选定对应于当前语音输入的发音人,属于一对多的模型辨识问题。说话人识别技术在军事、国家安全、刑侦领域和银行、证券等金融领域有着广泛的应用。\n[0003] 目前说话人识别最为主流的技术路线是GMM-UBM算法,即分别采用混合高斯模型(Gaussian Mixture Model,GMM)模拟各说话人模型及单独的通用背景模型(Universal Background Model,UBM),通过比较说话人模型及背景模型相对于输入语音信号的声纹特征的似然比确定说话人身份。具体地,在进行说话人确认时根据说话人模型及背景模型的似然比和预置阈值的大小判断是否为目标说话人,而在进行说话人识别时则比较所有说话人模型的似然比大小并选择具有最大似然比的说话人为识别结果。\n[0004] 通常,对说话人模型的模拟效果会随着训练数据量的增多而得到进一步的改善,从而使说话人识别系统的性能得到提高。然而在实际应用中,实际检测环境和模型训练环境往往不尽相同,语音通信中通信信道或通信工具的任何变化都会引起语音信号不同程度的畸变,进而导致训练数据和测试采集信道不匹配,训练模型不能很好地模拟测试数据,影响了系统性能。因此,如何改善说话人识别系统在不同信道环境下的识别稳定性,提高该系统的鲁棒性和普适性已成为当前亟待解决的实际问题。\n发明内容\n[0005] 本发明实施例针对上述现有技术存在的问题,提供一种说话人识别方法及系统,以适应不同的信道环境,提高系统性能。\n[0006] 本发明实施例提供一种说话人识别方法,包括:\n[0007] 采集不同信道下的用户注册语音信号;\n[0008] 从采集的所述语音信号中分别提取声纹特征序列;\n[0009] 利用所述声纹特征序列训练生成对应所述用户的说话人模型;\n[0010] 根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。\n[0011] 优选地,所述采集不同信道下的用户注册语音信号包括:\n[0012] 利用选定的多个不同的麦克风分别采集所述用户注册语音信号。\n[0013] 优选地,所述方法还包括:\n[0014] 检测不同麦克风与不同用户端设备的信道相似度;\n[0015] 根据得到的信道相似度选定多个不同的麦克风。\n[0016] 优选地,所述检测不同麦克风与不同用户设备的信道相似度包括:\n[0017] 将所述不同麦克风和所述不同用户端设备置于音箱的同一波束面上;\n[0018] 通过所述音箱播放用户录音;\n[0019] 利用所述不同麦克风和所述不同用户端设备对所述用户录音进行同步采集;\n[0020] 对于每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。\n[0021] 优选地,所述根据得到的相似度选定多个不同的麦克风包括:\n[0022] 利用线性函数D=S-PESQ将所述信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数;\n[0023] 以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值分布的麦克风;\n[0024] 根据聚类结果选定多个不同的麦克风。\n[0025] 可选地,所述不同麦克风包括以下任意一种或多种:动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;\n[0026] 所述不同用户端设备包括以下任意一种或多种:手机、录音笔。\n[0027] 优选地,所述利用所述声纹特征序列训练生成对应所述用户的说话人模型包括:\n[0028] 对于每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;\n[0029] 对得到的对应不同信道的声纹模型进行合并,生成对应所述用户的说话人模型。\n[0030] 优选地,对得到的对应不同信道的声纹模型进行合并包括:\n[0031] 将对应不同信道的声纹模型加权平均。\n[0032] 本发明实施例还提供一种说话人识别系统,包括:\n[0033] 采集单元,用于采集不同信道下的用户注册语音信号;\n[0034] 特征提取单元,用于从所述采集单元采集的所述语音信号中分别提取声纹特征序列;\n[0035] 模型训练单元,用于利用所述特征提取单元提取的声纹特征序列训练生成对应所述用户的说话人模型;\n[0036] 识别单元,用于根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。\n[0037] 优选地,所述采集单元,具体用于利用选定的多个不同的麦克风分别采集所述用户注册语音信号。\n[0038] 优选地,所述系统还包括:\n[0039] 检测子系统,用于检测不同麦克风与不同用户端设备的信道相似度;\n[0040] 选择单元,用于根据得到的信道相似度选定多个不同的麦克风。\n[0041] 优选地,所述检测子系统包括:\n[0042] 音箱,用于播放用户录音;\n[0043] 多个不同麦克风和多个不同用户设备,用于在所述音箱的同一波束面上同步采集所述音箱播放的用户录音;\n[0044] 计算单元,用于对每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。\n[0045] 优选地,所述选择单元包括:\n[0046] 映射子单元,用于利用线性函数D=S-PESQ将所述信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数;\n[0047] 聚类子单元,用于以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值的麦克风;\n[0048] 选择子单元,用于根据所述聚类子单元的聚类结果选定多个不同的麦克风。\n[0049] 可选地,所述不同麦克风包括以下任意一种或多种:动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;\n[0050] 所述不同用户端设备包括以下任意一种或多种:手机、录音笔。\n[0051] 优选地,所述模型训练单元包括:\n[0052] 训练子单元,用于对每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;\n[0053] 合并子单元,用于对所述训练子单元得到的对应不同信道的声纹模型进行合并,生成对应所述用户的说话人模型。\n[0054] 优选地,合并子单元,具体用于将对应不同信道的声纹模型加权平均,生成对应所述用户的说话人模型。\n[0055] 本发明实施例提供的说话人识别方法及系统,针对检测环境和模型训练环境不同情况下,由于测试语音和训练语音之间信道不匹配导致系统性能下降的问题,通过采集不同信道下的用户注册语音信号,并利用这些不同信道下的注册语音信号训练生成对应所述用户的说话人模型,根据该说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。相比于传统基于加噪语音训练得到的说话人模型对信道敏感的问题,本发明实施例中得到的说话人模型由于是基于多个不同信道数据训练得到的,因此能更好地覆盖不同信道下的声纹特点,具有更高的鲁棒性和针对性。即使在模型训练数据与信道空问不匹配的情况下,也可以得到更鲁棒的模型估计,较好地改善信道差异导致的系统性能下降的问题。\n附图说明\n[0056] 为了更清楚地说明本发明实施的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。\n[0057] 图1是本发明实施例说话人识别方法的流程图;\n[0058] 图2是本发明实施例中背景模型参数训练过程的一种流程图;\n[0059] 图3是本发明实施例中选择麦克风的一种实现流程图;\n[0060] 图4是本发明实施例说话人识别系统的一种结构示意图;\n[0061] 图5是本发明实施例说话人识别系统的另一种结构示意图。\n具体实施方式\n[0062] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。\n[0063] 本发明实施例说话人识别方法及系统,针对检测环境和模型训练环境不同情况下,由于测试语音和训练语音之间信道不匹配导致系统性能下降的问题,通过采集不同信道下的用户注册语音信号,并利用这些不同信道下的注册语音信号训练生成对应所述用户的说话人模型,根据该说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。\n[0064] 如图1所示,是本发明实施例说话人识别方法的流程图,包括以下步骤:\n[0065] 步骤101,采集不同信道下的用户注册语音信号。\n[0066] 具体地,可以通过不同类型的采集设备来模拟不同的信道,比如,利用K个麦克风采集用户输入的每句注册语音。\n[0067] 步骤102,从采集的所述语音信号中分别提取声纹特征序列。\n[0068] 该声纹特征序列包含一组声纹特征,可以有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。\n[0069] 所述声纹特征主要有:谱包络参数语音特征,基音轮廓、共振峰频率带宽特征,线性预测系数,倒谱系数等。\n[0070] 步骤103,利用所述声纹特征序列训练生成对应所述用户的说话人模型。\n[0071] 本发明实施例中的每一个特定的信道都对应了一组声纹特征序列,因此可以首先对每个信道下的声纹特征序列分别训练,得到对应的声纹模型;然后,对得到的对应不同信道的多个声纹模型进行合并,比如加权平均,生成对应所述用户的说话人模型。\n[0072] 在对注册用语音样本进行训练时,可以采用传统声纹认证系统的自适应算法,根据样本统计量调整通用背景模型参数实现对说话人模型的估计,如目前最为常用的基于最大后验概率的自适应算法等。\n[0073] 自适应算法根据少量说话人数据将用户声纹共性自适应为当前说话人个性,其具体训练流程大致如下:\n[0074] 1)从用户注册语音信号中提取声纹特征。\n[0075] 2)利用所述声纹特征自适应更新背景模型混合高斯的均值μm:\n[0076] 具体地,新高斯均值 计算为样本统计量和原始高斯均值的加权平均,即:\n[0077] \n[0078] 其中,xt表示第t帧声纹特征,γm(xt)表示第t帧声纹特征落于第m个高斯的概率,τ是遗忘因子,用于平衡历史均值以及样本对新均值的更新力度。一般来说,τ值越大,则新均值主要受原始均值制约。而若τ值较小,则新均值主要由样本统计量决定,更多的体现了新样本分布的特点。\n[0079] 3)复制背景模型方差作为所述用户的说话人模型方差。\n[0080] 4)生成对应所述用户的说话人模型。\n[0081] 当然,本发明实施例并不仅限定上述自适应算法的训练方式,还可以采用其它方式,比如可以采用主流的联合因子分析算法等,在此不再一一列举描述。\n[0082] 这样,在得到对应不同信道的多个声纹模型后,对这些声纹模型进行合并,得到对应所述该说话人的声纹模型。\n[0083] 对多个不同信道的多个声纹模型的合并可以采用加权平均方法,比如,在混合高斯模型下,主要包括对高斯的均值和方差的加权平均,即:\n[0084] 用户的说话人模型的每个高斯的均值为\n[0085] 用户的说话人模型的每个高斯的方差为\n[0086] 其中,ωk是第k个声纹模型的加权系数,可以考虑和麦克风阵列中麦克风权重相关。在本实施例中,各声纹模型的加权系数可以相同,比如设置为 K为麦克风阵列中麦克风的总个数。当然,各声纹模型的加权系数也可以不同。μm(k)表示第k个信道下的说话人声纹模型的第m个高斯分量的均值矢量,∑m(k)表示第k个信道下的说话人声纹模型的第m个高斯分量的方差矩阵。\n[0087] 另外,对多个不同信道的多个声纹模型的合并还可以采用分量聚类方法,具体地,在混合高斯模型下,将所有K*N(N为对应每个信道的声纹模型的高斯数)个高斯作为独立样本,通过各种聚类算法合并得到N个最具代表性的高斯分量作为所述说话人的声纹模型。\n[0088] 步骤104,根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。\n[0089] 具体地,可以提取测试语音信号中的声纹特征序列,分别计算该声纹特征序列与对应目标说话人的说话人模型的似然度p(X|U)、以及所述声纹特征序列与背景模型的似然度p(X|UBM),然后,计算两者的似然比,即:\n[0090] \n[0091] 如果得到的似然比大于设定的阈值,则表明上述测试语音是目标说话人的发音。\n[0092] 上述似然度的计算过程与现有技术类似,在此不再详细说明。\n[0093] 在本发明实施例中,所述通用背景模型用于描述说话人声纹的共性,该通用背景模型需要预先构建,具体可以采用现有技术中的一些方式,比如,采用1024或者更大高斯数的混合高斯模型模拟背景模型,其模型参数训练过程如图2所示。\n[0094] 步骤201,从多说话人训练语音信号中分别提取声纹特征,每个声纹特征作为一个特征矢量。\n[0095] 步骤202,利用聚类算法对上述特征矢量进行聚类,得到K个高斯的初始化均值,K是预先设置的混合高斯模型个数。\n[0096] 比如,可以采用传统的LBG(Linde,Buzo,Gray)聚类算法,通过训练矢量集和一定的迭代算法来逼近最优的再生码本。\n[0097] 步骤203,利用EM(Expectation Maximization)算法迭代更新上述均值、方差及各高斯对应的加权系数,得到背景模型。\n[0098] 具体的迭代更新过程与现有技术相同,在此不再详细描述。\n[0099] 当然,还可以采用其他方式构建背景模型,对此本发明实施例不做限定。\n[0100] 本发明实施例说话人识别方法,针对检测环境和模型训练环境不同情况下,由于测试语音和训练语音之间信道不匹配导致系统性能下降的问题,通过采集不同信道下的用户注册语音信号,并利用这些不同信道下的注册语音信号训练生成对应所述用户的说话人模型,根据该说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。相比于传统基于加噪语音训练得到的说话人模型对信道敏感的问题,本发明实施例中得到的说话人模型由于是基于多个不同信道数据训练得到的,因此能更好地覆盖不同信道下的声纹特点,具有更高的鲁棒性和针对性。即使在模型训练数据与信道空问不匹配的情况下,也可以得到更鲁棒的模型估计,较好地改善信道差异导致的系统性能下降的问题。\n[0101] 需要说明的是,在上述步骤101中,可以利用任意多个麦克风模拟不同的信道,采集用户注册语音信号。当然,考虑到训练数据信道的覆盖面将直接影响到模型模拟的精度,一般来说选择的信道越多,则相应的模型越可以兼容不同环境下的声纹特点,进而覆盖实际信道差异。然而若信道过多,则一方面对硬件要求更高,另一方面模型描述得过于精细也容易影响其鲁棒性。为此,在本发明实施例中,可以优选利用少量典型信道模拟复杂的实际环境。比如,可以从大量麦克风中选出少量音质较好、同时对主流的信道有一定覆盖能力的麦克风,然后利用这些选定的麦克风模拟不同信道,采集用户注册语音信号。\n[0102] 在选择麦克风时,可以通过检测不同麦克风与不同用户端设备的信道相似度来确定用来模拟不同典型信道的多个麦克风,实现对现实应用中复杂信道的覆盖。\n[0103] 如图3所示,是本发明实施例中选择麦克风的一种具体流程,包括以下步骤:\n[0104] 步骤301,选择用户端声纹采集设备(以下将其简称为用户端设备)。\n[0105] 该用户端设备用于模拟在实际应用中获取的测试语音信号的来源端,考虑到本发明实施例在实际应用中,可以基于用户日常生活应用中可能产生的各种声纹数据进行说话人识别,因此,该用户端设备可以为通常使用的各种便携式设备,如手机、录音笔等。\n[0106] 步骤302,选择系统注册端的声纹采集设备(以下将其简称为系统端设备)。\n[0107] 系统注册端主要用于完成用户身份注册,主要是通过录制用户语音训练用户个性化说话人模型。为了和用户端信道相匹配,可以选择系统端设备为各种移动设备中使用较多的麦克风,包括动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风等,实现对主流麦克风信道的覆盖。\n[0108] 步骤303,采集不同信道数据。\n[0109] 具体地,可以将各麦克风和上述不同用户端设备置于音箱的同一波束面上;通过所述音箱播放用户录音;利用各麦克风和上述不同用户端设备对该用户录音进行同步采集。\n[0110] 步骤304,对于每个系统端设备和用户端设备,计算该系统端设备和该用户端设备在采集到的语音信号上的主观语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)值,将PESQ值作为该麦克风和该用户端设备的信道相似度。\n[0111] PESQ是对客观平均意见值(Mean Opinion Score,MOS)的一种有效的评价方法。\n目前PESQ准则适用于编解码、系统评估、选择和优化等各方面。一般来说PESQ越高则说明两个麦克风越相近,因此可以定义第i个用户端设备及第j个系统端设备的信道相似度为第i个用户端设备采集到的语音信号和第j个系统端设备采集到的语音信号的PESQ值。\n[0112] 步骤305,根据得到的信道相似度确定所需的多个不同的麦克风。\n[0113] 具体地,可以选择PESQ值达到设定值的多个麦克风作为实际应用所需的多个不同的麦克风。\n[0114] 另外,还可以通过传统KL聚类算法获得K(K<N,N为上述步骤302选择的全部麦克风的个数)个典型麦克风,具体如下:\n[0115] 1)设置所有麦克风为初始类中心;\n[0116] 2)衡量用户端设备和各麦克风的信道相似度。\n[0117] 为了更好地衡量不同语音采集设备之间的差异,本发明实施例还可以对得到的原始PESQ值执行各种函数映射以通过特征变换的方式提高不同设备之间的区分性。具体地,可以采用简单的线性函数D=S-PESQ将设备的信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数,可根据PESQ的浮动范围设定,比如设S为4.5。\n[0118] 显然距离D越小,表示两个麦克风越相近。\n[0119] 3)以系统端各设备为起点,通过不断合并系统端设备和用户端设备相似的麦克风信道得到K(K<N)个最典型的麦克风。这里参数K可以根据实际应用需要预先设定,比如,设定K=8等。\n[0120] 对上述合并过程举例如下:假设当前存在N个类中心,则从N个类中心中选择具有最大相似度的两个类中心进行合并,并保留这两个类中心中具有更大覆盖力的那个,将类别总数从N个删减为N-1个。所谓两个类中心的相似度可以计算如下:\n[0121] 分别计算所考察的两个类中心的每个类中心和当前两个类中心覆盖的所有用户端设备的PESQ值的总和,记为合并后的类方差。随后计算合并后类方差和合并前两个独立类的类方差和的差值。差值越小则说明这两个类中心越相似。\n[0122] 本发明实施例说话人识别方法,通过有针对性地挑选最具代表性的典型信道,利用大量同步采集的训练数据更准确、更具方向性地估计出信道空间,在注册时采用多模型加权平均的方法生成具有高表征性的说话人模型,可以进一步消除注册数据中的信道影响,减小注册数据和测试数据之间的失配情况,提高系统的识别率及运算效率。本发明实施例说话人识别方法,在大量麦克风中选取最具代表性的典型麦克风构成多麦克风语音信号采集设备,不仅弥补了训练数据对信道覆盖面不足的问题,而且避免了过多麦克风导致系统复杂度增加。\n[0123] 相应地,本发明实施例还提供一种说话人识别系统,如图4所示,是该系统的一种结构示意图。\n[0124] 在该实施例中,所述系统包括:\n[0125] 采集单元401,用于采集不同信道下的用户注册语音信号;\n[0126] 特征提取单元402,用于从所述采集单元401采集的语音信号中分别提取声纹特征序列;\n[0127] 模型训练单元403,用于利用所述特征提取单元402提取的声纹特征序列训练生成对应所述用户的说话人模型;\n[0128] 识别单元404,用于根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。\n[0129] 在本发明实施例中,采集单元401可以利用任意多个麦克风同步采集用户注册语音信号,以模拟多种不同的信道环境。当然,考虑到训练数据信道的覆盖面将直接影响到模型模拟的精度,一般来说选择的信道越多,则相应的模型越可以兼容不同环境下的声纹特点,进而覆盖实际信道差异。然而若信道过多,则训练时间过长,且对硬件要求更高,影响用户体验。为此,在本发明实施例中,还可以优选利用少量典型信道模拟复杂的实际环境。比如,可以从大量麦克风中选出少量音质较好、同时对主流的信道有一定覆盖能力的麦克风,采集单元401利用这些选定的多个麦克风模拟不同信道,采集用户注册语音信号。\n[0130] 本发明实施例中,特征提取单元402提取的每个声纹特征序列都对应了一个特定的信道,相应地,模型训练单元403可以首先对每个声纹特征序列分别训练,得到对应的声纹模型;然后,对得到的对应不同信道的多个声纹模型进行加权平均,生成对应所述用户的说话人模型。\n[0131] 为此,模型训练单元403的一种具体实现结构可以包括:训练子单元和加权子单元(未图示),其中:\n[0132] 所述训练子单元,用于对每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;\n[0133] 所述合并子单元,用于对所述训练子单元得到的对应不同信道的声纹模型进行合并,生成对应所述用户的说话人模型,比如,将对应不同信道的声纹模型加权平均,生成对应所述用户的说话人模型。\n[0134] 所述训练子单元在对注册用语音样本进行训练时,可以采用传统声纹认证系统的自适应算法,根据样本统计量调整通用背景模型参数实现对说话人模型的估计,如目前最为常用的基于最大后验概率的自适应算法等,具体可参见前面本发明实施例说话人识别方法中的描述,在此不再赘述。\n[0135] 本发明实施例说话人识别系统,针对检测环境和模型训练环境不同情况下,由于测试语音和训练语音之间信道不匹配导致系统性能下降的问题,通过采集不同信道下的用户注册语音信号,并利用这些不同信道下的注册语音信号训练生成对应所述用户的说话人模型,根据该说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。相比于传统基于加噪语音训练得到的说话人模型对信道敏感的问题,本发明实施例中得到的说话人模型由于是基于多个不同信道数据训练得到的,因此能更好地覆盖不同信道下的声纹特点,具有更高的鲁棒性和针对性。即使在模型训练数据与信道空问不匹配的情况下,也可以得到更鲁棒的模型估计,较好地改善信道差异导致的系统性能下降的问题。\n[0136] 如图5所示,是本发明实施例说话人识别系统的另一种结构示意图。\n[0137] 与图4所示实施例不同的是,在该实施例中,所述系统还包括:检测子系统501和选择单元502。\n[0138] 所述检测子系统501用于检测不同麦克风与不同用户端设备的信道相似度。\n[0139] 其中,所述麦克风包括以下任意一种或多种:动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;\n[0140] 所述用户端设备包括以下任意一种或多种:手机、录音笔。\n[0141] 所述选择单元502用于根据得到的相似度选定多个不同的麦克风。\n[0142] 相应地,在该实施例中,采集单元402利用选择单元502选定的多个不同的麦克风同步采集不同信道的用户注册语音信号。\n[0143] 在该实施例中,所述检测子系统501包括:\n[0144] 音箱,用于播放用户录音;\n[0145] 多个不同的麦克风和多个不同的用户设备,用于在所述音箱的同一波束面上同步采集所述音箱播放的用户录音;\n[0146] 计算单元,用于对每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。\n[0147] 在该实施例中,选择单元502具体可以选择PESQ值达到设定值的多个麦克风作为实际应用所需的多个不同的麦克风。\n[0148] 另外,还可以通过各种聚类算法,挑选具有最大覆盖能力的主流麦克风作为实际需要所用的多个不同麦克风。\n[0149] 相应地,所述选择单元502的一种具体结构包括:映射子单元、聚类子单元和选择子单元,其中:\n[0150] 映射子单元,用于利用线性函数D=S-PESQ将所述信道相似度映射到新的距离度量空间;\n[0151] 聚类子单元,用于以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值的麦克风;\n[0152] 选择子单元,用于根据所述聚类子单元的聚类结果选定多个不同的麦克风。\n[0153] 当然,本发明实施例对选择单元502的具体结果不做限定,还可以有其它实现方式。\n[0154] 本发明实施例说话人识别系统,通过有针对性地挑选最具代表性的典型信道,利用大量同步采集的训练数据更准确、更具方向性地估计出信道空间,在注册时采用多模型加权平均的方法生成具有高表征性的说话人模型,可以进一步消除注册数据中的信道影响,减小注册数据和测试数据之间的失配情况,提高系统的识别率及运算效率。本发明实施例说话人识别方法,在大量麦克风中选取最具代表性的典型麦克风构成多麦克风语音信号采集设备,不仅弥补了训练数据对信道覆盖面不足的问题,而且避免了过多麦克风导致系统复杂度增加。\n[0155] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。\n[0156] 以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。
法律信息
- 2015-05-06
专利权人的姓名或者名称、地址的变更
专利权人由安徽科大讯飞信息科技股份有限公司变更为科大讯飞股份有限公司
地址由230088 安徽省合肥市高新开发区黄山路616号变更为230088 安徽省合肥市高新开发区望江西路666号
- 2013-05-29
- 2012-01-25
实质审查的生效
IPC(主分类): G10L 17/00
专利申请号: 201110237852.9
申请日: 2011.08.18
- 2011-12-07
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |