著录项信息
专利名称 | 掌上声纹验证方法 |
申请号 | CN02141768.7 | 申请日期 | 2002-09-06 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2003-03-19 | 公开/公告号 | CN1403953 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | 暂无 | IPC分类号 | 暂无查看分类表>
|
申请人 | 浙江大学 | 申请人地址 | 浙江省杭州市玉古路20号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 浙江大学 | 当前权利人 | 浙江大学 |
发明人 | 吴朝晖;杨莹春;马志友 |
代理机构 | 杭州九洲专利事务所有限公司 | 代理人 | 陈继亮 |
摘要
本发明是涉及一种用于掌上电脑的掌上声纹验证方法,利用人的声音来鉴定身份,根据说话人的声纹特征,通过高斯混合模型建立声纹模型;通过掌上电脑的麦克风录入语音;对声音进行预处理;对处理后的声音根据一定的声纹模型进行声纹特征提取;用声纹特征与声纹模型来识别说话人,进行声纹验证。所述的声音预处理,对语音数字滤波、端点检测、去零漂、预加重、加汉明窗等处理过程。通过计算说话人的声纹特征在高斯混合模型的匹配得分进行声纹验证。本发明有益的效果是:采用人们最常用的交流手段“语音”作为输入源的掌上声纹验证操作简单、应用灵活、实现方便、结果可靠准确,具有很大的发展潜力。
1、一种掌上声纹验证方法,其特征在于:
1)、利用人的声音来鉴定身份,根据说话人的声学特征,通过高斯混合模型 建立声纹模型;通过掌上电脑的麦克风录入语音;对声音进行预处理;对处理后 的声音根据一定的声学模型进行特征提取;用声纹特征与声纹模型来识别说话 人,进行声纹验证;
2)、所述的声音预处理,对语音数字滤波、端点检测、去零漂、预加重、加 汉明窗等处理过程;其中端点检测采用特有的自适应双门限检定法检测语音端 点;
3)、对处理后的声音进行二次特征提取,是对声音按照一定声学模型建模的 过程:采用MFCC与LPCC进行声学建模,并通过求取特征一阶微分、特征加 权、特征维选择、特征组合等方式获取一致的声学特征;
4)、用声学特征与高斯混合模型进行声纹识别,计算说话人的声学特征在高 斯混合模型的匹配得分;如果该得分大于设定的阀值,则验证通过,否则说明该 用户是冒名的,拒绝该用户。
2、根据权利要求1所述的掌上声纹验证方法,其特征在于:所述的自适应 双门限检定法检测语音端点,门限能量由静态能量阀值与动态能量阀值共同决 定,有效的语音要有一个持续的高能量区: N为一帧语音的采样点数,E1为邻近三帧的平均能量
ETH=a·(E1+E0)/2 E0为预设静态能量,a为比例参数,ETH为高阀值
ETL=b·(E1+E0)/2 b为比例参数,ETL为低阀值。
3、根据权利要求1所述的掌上声纹验证方法,其特征在于:声纹模型管理, 包括涉及到声纹模型的更新与存储。
技术领域\n本发明是利用声纹识别方法,针对掌上电脑平台实现的新型身份 安全认证系统。声纹识别方法属于计算机语音处理技术领域,而掌上 电脑是移动互联环境的重要设备,两者结合构成了一种安全可靠的用 于掌上电脑的掌上声纹验证方法。\n 背景技术\n信息时代的一大特征就是身份的数字化和隐性化,如何准确鉴定 身份,保证信息安全呢?信用卡号、银行帐号、网络登录号,我们可 能被生活中过多需要记忆的密码搅得心烦。如何不用记忆这些密码而 又不用担心自己身份无法认定呢?已经兴起的生物认证技术正好可以 解决上述问题。声纹识别是从说话人所发语音中提取出说话人是谁的 信息的过程,为此,需从各个说话人的发音中找出说话人之间的个性 差异,它涉及到说话人发音器官上的个性差异、发音声道之间的个性 差异、发音习惯之间的个性差异等不同级别上的差异,因此,声纹识 别是交叉运用运用心理学、声学、语音学、语言学、人工智能、数字 信号处理、信息理论、模式识别理论、最优化理论、计算机科学等的 综合性课题。随着数字信号处理理论和人工智能等学科的不断发展, 近年来声纹识别研究得到了迅速的发展。\n同样,随着电子商务的广泛推广,掌上电脑(PDA)日益成为人 们必不可少的电子伙伴。掌上电脑上不仅保存着大量的个人或公司的 重要资料,也是从事电子商务的必要手段。如何保证其自身安全以及 保障开展电子商务的安全性,是一个亟待解决的问题。本掌上声纹验 证方法的推出解决了这一燃眉之急,采用语音输入的身份认证方式对 用户而言简单方便可靠,具有很大的发展潜力。\n 发明内容\n本发明所要解决的技术问题是提供一种用于掌上电脑的掌上声纹 验证方法。\n本发明解决其技术问题所采用的技术方案。这种用于掌上电脑的 掌上声纹验证方法,利用人的声音来鉴定身份,根据说话人的声纹特 征,通过高斯混合模型建立声纹模型;通过掌上电脑的麦克风录入语 音;对声音进行预处理;对处理后的声音根据一定的声纹模型进行声 纹特征提取;用声纹特征与声纹模型来识别说话人,进行声纹验证。 所述的声音预处理,对语音数字滤波、端点检测、去零漂、预加重、 加汉明窗等处理过程;其中端点检测采用特有的自适应双门限检定法 检测语音端点。对处理后的声音进行二次特征提取,是对声音按照一 定声学模型建模的过程:采用MFCC与LPCC进行声学建模,并通过 求取特征一阶微分、特征加权、特征维选择、特征组合等方式获取一 致的声学特征。用声学特征与高斯混合模型进行声纹识别,计算说话 人的声学特征在高斯混合模型的匹配得分;如果该得分大于设定的阀 值,则验证通过,否则说明该用户是冒名的,拒绝该用户。\n本发明解决其技术问题所采用的技术方案还可以进一步完善。 所述的自适应双门限检定法检测语音端点,门限能量由静态能量阀值 与动态能量阀值共同决定,有效的语音要有一个持续的高能量区。声 纹模型管理,包括涉及到声纹模型的更新与存储。通过计算说话人的 声纹特征在高斯混合模型的匹配得分进行声纹验证:如果该得分大于 设定的阀值,则验证通过,否则说明该用户是冒名的,拒绝该用户。 还可设有声纹模型管理,包括涉及到声纹模型的更新与存储。\n本发明有益的效果是:首先,本发明运用于移动的掌上电脑;其 次,本发明使用了自适应双门限检定法检测语音端点;再次,本发明 适用二次特征提取方式进行声纹特征提取;最后,本发明采用可更新 的声纹模型管理。采用人们最常用的交流手段“语音”作为输入源的 掌上声纹验证操作简单、应用灵活、实现方便、结果可靠准确,具有 很大的发展潜力。\n附图说明\n图1是本发明的掌上声纹验证方法框架图;\n图2是本发明的声纹验证技术流程图;\n图3是本发明的自适应双门限检定法框图;\n图4是本发明的二次特征提取框图;\n图5是本发明的声纹模型管理框图;\n 具体实施方式\n下面结合实施例对本发明作进一步描述。这种用于掌上电脑的掌 上声纹验证方法:\n第一,掌上声纹验证方法(如图1,2所示)利用声纹验证技术在掌 上电脑上实现实时身份认证。其基本工作原理如下:(1)用户通过掌 上电脑的麦克风录入语音,系统对语音进行预处理并根据一定的声纹 模型提取说话人的个性特征。(2)在用户注册过程,用户根据系统提 示录入一些训练的语音,系统利用这些语料进行特征提取,再提取的 声纹特征生成特定的声纹模型。(3)当用户登录时,用户同样需要说 出一段话(注册与登录时说的话不必相同),系统将新获取的声纹特征 与原有的模型匹配比对。如果两者相似性较大(超过给定阀值),则系 统接纳该用户,否则拒绝。显然,对于声纹验证系统,用户登录时需 要申明自己的身份,没有注册过的用户将为系统所拒绝。(4)对于被 接纳的授权用户,系统允许其访问资源。对于企业用户,则通过无线 网络(如蓝牙/红外)访问企业网络,电子商务用的业务应用系统等; 对于个人用户,则系统允许察看一些个人信息,如个人计划,记事内 容等。在这个意义上,掌上声纹验证方法是一个电子安全门户,是可 以与应用系统相集成的支持COM调用的API,甚而作为开机口令保护。\n第二,在声纹识别的信号预处理中,噪声是一个不可避免又令人 十分头痛的问题。如图3为一段语音的能量-时间图,如何从一段带噪 语音中检测出“干净的”语音区正是端点检测的重中之重。而由掌上 电脑录取的声音中更是包含较多的噪声信号。如图中可见,语音的能 量并非是一直超过平均水平的。清音与浊音之间,噪声的干扰,声音 的忽高忽低使掌上声纹验证方法遇到了严峻挑战。本发明采用自适应 双门限检定法检测语音端点,门限能量由静态能量阀值与动态能量阀 值共同决定,有效的语音要有一个持续的高能量区。\n N为一帧语音的采样点数,E1为邻近三帧的平均能量\nETH=a·(E1+E0)/2 E0为预设静态能量,a为比例参数,ETH为高阀值\nETL=b·(E1+E0)/2 b为比例参数,ETL为低阀值\n第三,采用声纹特征的二次提取有利于声纹验证的识别率。如图4 所示,首先是对语音进行Mel倒谱(MFCC)与线性预测系数倒谱(LPCC) 的特征提取。其次分别采用特征组合、特征维选取、特征取一阶微分 以及特征加权等方法实现对声纹特征的二次提取。\nMFCC通过一组带宽随滤波器频率呈对数增长的数字滤波器组来 计算一帧语音信号功率谱;然后对数字滤波器组的输出值取对数,最 后利用离散余弦变换从该对数功率谱求得表示语音信号谱包络的倒谱 系数。数字滤波器组构成人类听觉系统初始传导阶段的粗糙模型。以 下为MFCC的求取公式:\n\n i=1,2…,P\n特征加权是指用加权系数增强部分特征维权重。加权特征 WFEATURE为:\nWMFCCi=MFCCi*ai i=1,2...,P;\n其中αi为加权系数,ai=0.5+sin(π*i/P),i=1,2,...,P\n计算LPCC分两步,首先采用Durbin递推算法求解线性预测系数 LPC,随后采用求倒谱公式求取LPCC。而LPCC的加权WLPCC则采 用以下方式:\nWLPCCi=LPCCi*ai i=1,2…,Q;\n其中ai为加权系数,ai=0.25+0.5sin(π*i/Q),i=1,2,...,Q\n特征一次微分指获取特征的动态变化。动态特征DynFEATURE为:\nDynFEATURE(j)i=FEATURE(j)i-FEATURE(j-1)i\n其中,i=1,2…,I,表示第i维特征;DynFEATURE(j)表示第j帧特征。 此处FEATURE分别为WMFCC或者WLPCC,所以对应的 DynFEATURE分别是DMFCC与DLPCC。显然,DMFCC,DLPCC的 阶数分别与WMFCC,WLPCC一致。\n特征组合指的是将两种以上特征相结合而构成的新特征。特征组合 ComFEATURE形式化表示为:\n\n特征维选取是指从原有多维特征中选取部分维度的特征构成。特征 维选取结果为SelFEATURE,方法如下:\nSelFEATUREi=ComFEATUREj i=1,2…,I;j=1,2,…2P+2Q;i≤j;\n且当j≠k时,ComFEATURE(j)≠ComFEATURE(k)\n由此完成特征的二次提取。\n第四,声纹模型管理是一个关于说话人信息的数据库管理。如图5 所示,包括声纹模型建模、模型保存、模型载入以及说话人资料管理。 其中说话人建模过程采用新旧声纹特征实现声纹模型的更新。\n至此,整个掌上声纹验证得以实现。
法律信息
- 2019-08-27
未缴年费专利权终止
IPC(主分类): G06F 17/00
专利号: ZL 02141768.7
申请日: 2002.09.06
授权公告日: 2004.10.06
- 2004-10-06
- 2003-05-28
- 2003-03-19
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |