语音命令识别方法及装置

发明专利有效专利

申请号：
CN201210084824.2
IPC分类号：G10L15/26;G10L15/07;G10L21/0272
申请日期：
2012-03-27
申请人：
联想（北京）有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	语音命令识别方法及装置
申请号	CN201210084824.2	申请日期	2012-03-27
法律状态	授权	申报国家	中国
公开/公告日	2013-10-23	公开/公告号	CN103366740A
优先权	暂无	优先权号	暂无
主分类号	G10L15/26 ? IPC结构图谱： G 物理 G0 仪器 G10 乐器；声学 G10L 语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码〔4〕 G10L15/00 语音识别（G10L 17/00优先）〔7，2013.01〕 G10L15/26 语音—正文识别系统（G10L 15/08优先）〔7〕	IPC分类号	G;1;0;L;1;5;/;2;6;;;G;1;0;L;1;5;/;0;7;;;G;1;0;L;2;1;/;0;2;7;2查看分类表>
申请人	联想（北京）有限公司	申请人地址	北京市海淀区上地信息产业基地创业路6号联想专利中心变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	联想（北京）有限公司	当前权利人	联想（北京）有限公司
发明人	袁媛
代理机构	北京中博世达专利商标代理有限公司	代理人	申健

摘要

本发明公开了一种语音命令识别方法及装置，涉及声控技术领域，可以提高语音识别率，并使得操作过程更便捷。本发明的方法包括：接收音频信号；根据有效语音命令特征对所述音频信号进行分解和过滤，得到语音样本；对所述语音样本进行语义识别，确定对应的语音命令。本发明主要用于语音命令的识别过程中。

语音命令识别方法及装置\n技术领域\n[0001] 本发明涉及声控技术领域，尤其涉及一种语音命令识别方法及装置。\n背景技术\n[0002] 随着声控技术的发展，声控技术被广泛应用到人们日常生活和工作中。声控技术是一种可以将人类语音作为输入命令的控制技术，使用时不可避免的会遇到使用者语音与周围环境噪声、其他人员语音等噪音的混叠，因此如何将非重要声源发出的声音过滤，并准确识别重要声源的语音命令，成为声控设备需要解决的一个重要问题。相应的，声控设备对语音识别的准确度和声控设备的友好性成为业内关注的重要课题。\n[0003] 现有技术中，声控设备仅能识别预定的人声。例如，声控设备的操控者是主人A，则通过录入大量的主人A的语音样本后，将主人A的语音样本存储为标准命令数据库，作为语音命令识别的依据。主人B在操控声控设备时，由于主人B与主人A的声音频率、音色等特征不同，即使发出同样的语音命令，也不能被识别。\n[0004] 因此，在实现上述语音命令识别的过程中，发明人发现现有技术中至少存在如下问题：由于根据预先录入的操控者的语音样本作为语音命令的识别依据，声控设备的操控人员受到限制，导致语音识别率低；并且，任何操控者在使用声控设备前，必须进行大量的标准命令库的录入，增加了操作难度，导致使用过程不友好。\n发明内容\n[0005] 本发明的实施例提供一种语音命令识别方法及装置，可以提高语音识别率，并使得操作过程更便捷。\n[0006] 为达到上述目的，本发明的实施例采用如下技术方案：\n[0007] 一种语音命令识别方法，包括：\n[0008] 接收音频信号；\n[0009] 根据有效语音命令特征对所述音频信号进行分解和过滤，得到语音样本；\n[0010] 对所述语音样本进行语义识别，确定对应的语音命令。\n[0011] 一种语音命令识别装置，包括：\n[0012] 音频接收单元，用于接收音频信号；\n[0013] 样本提取单元，用于根据有效语音命令特征对所述音频信号进行分解和过滤，得到语音样本；\n[0014] 命令识别单元，用于对所述语音样本进行语义识别，确定对应的语音命令。\n[0015] 本发明实施例提供的语音命令识别方法及装置，根据有效语音命令特征对接收到的音频信号进行分解和过滤，再进行语义识别确定语音命令，与现有的将接收到的音频信号与已录入的主人语音样本进行匹配的技术相比，可以不限制语音命令识别装置的使用者，提高对语音命令的识别率，并且无需预先录入大量语音样本，使得操作更便捷。\n附图说明\n[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。\n[0017] 图1为本发明实施例1的语音命令识别方法流程图；\n[0018] 图2为本发明实施例2中的一种语音命令识别方法流程图；\n[0019] 图3为本发明实施例2中的另一种语音命令识别方法流程图；\n[0020] 图4为本发明实施例3中的一种语音命令识别装置组成示意图；\n[0021] 图5为本发明实施例3中的另一种语音命令识别装置组成示意图；\n[0022] 图6为本发明实施例3中的另一种语音命令识别装置组成示意图。\n具体实施方式\n[0023] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。\n[0024] 实施例1\n[0025] 本发明实施例提供一种语音命令识别方法，如图1所示，该方法可以包括：\n[0026] 101、接收音频信号。\n[0027] 其中，音频信号的来源并不限定在特定的使用者，可以是成人或儿童、男性或女性等，本发明提供的语音命令识别方法可以接收并识别各种不同音色的人类语言的语音命令。在特殊情况下，例如语音命令识别装置并不希望被儿童使用，或视儿童的声音并不是特定的语音命令，则可以分解和过滤过程中，将不需要的声音滤除。\n[0028] 并且，在实际操作过程中，可以直接接收音频信号进行相关过滤和识别操作，可以不用预先录入使用者的声音样本库，使得语音命令识别装置更简单易用，提高用户体验。\n[0029] 102、根据有效语音命令特征对所述音频信号进行分解和过滤，得到语音样本。\n[0030] 其中，有效语音命令特征可以根据实际应用需要设定，例如，频率较高而声音短促的音频信号可以视为是儿童的声音，或者在整个音频信号中持续存在的低频声音可以视为是环境噪音等，这些都不符合有效语音命令特征，因此可以将不关心的声音成分滤除，得到符合要求的有效语音命令。\n[0031] 103、对所述语音样本进行语义识别，确定对应的语音命令。\n[0032] 其中，在步骤102中得到语音样本后，对所述语音样本进行语义识别，确定对应的语音命令的方法具体可以为：将所述语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点进行匹配；确定出匹配率最高且达到规定匹配率的语音命令。对所述语音样本进行语义识别，确定对应的语音命令的方法具体也可以为：将所述语音样本的声音特征点与语音命令素材库中的关键词特征点进行匹配，确定达到规定匹配率的关键词；\n根据所述关键词确定对应的语音命令。\n[0033] 本发明实施例提供的语音命令识别方法，根据有效语音命令特征对接收到的音频信号进行分解和过滤，再进行语义识别确定语音命令，与现有的将接收到的音频信号与已录入的主人语音样本进行匹配的技术相比，可以不限制语音命令识别装置的使用者，提高对语音命令的识别率，并且无需预先录入大量语音样本，使得操作更便捷。\n[0034] 实施例2\n[0035] 本发明实施例提供一种语音命令识别方法，如图2所示，该方法可以包括：\n[0036] 201、接收音频信号。\n[0037] 202、分析在音频接收周期中接收的音频信号，甄别时域信号中人类语音的开始点，截取有效人类语音的时域信号。\n[0038] 其中，一个完整的音频接收周期时长与一个语音命令的语音时长可能不相同，或者在一个完整的音频接收周期中可能接收到多个人类语言，或多个语音命令。因此，可以分析在音频接收周期中接收的音频信号，甄别时域信号中人类语音的开始点，截取有效人类语音的时域信号。\n[0039] 203、若在所述音频接收周期中截取到至少两个有效人类语音的时域信号，则根据有效语音命令的时域特征筛选出符合时域要求的音频信号。\n[0040] 其中，若在一个音频接收周期中截取到不止一个有效人类语音的时域信号，即在所述音频接收周期中接收的音频信号中包含至少两个时域信号。可以根据有效语音命令的时域特征筛选出符合时域要求的时域信号，作为后续处理所需的音频信号。具体的，若将成人的语音作为有效语音命令，则可以根据儿童声音高频特性和说话时长较成人稍短的特点，初步筛选成人语音的时域信号。\n[0041] 204、对所述音频信号进行频域分解，滤除频率过高和/或频率过低的波段。\n[0042] 其中，经过步骤202-203对音频信号的时域分析和过滤之后，可以进一步的对过滤后的音频信号进行频域分析和过滤。具体的，可以将频率高于第一阈值的声音作为儿童吵闹的噪音滤除，也可以将频率低于第二阈值的声音作为环境噪音滤除，或者将频率过高和过低的声音均滤除。具体频率的阈值和滤除的标准可以根据实际语音命令识别装置的应用环境进行设定，本发明实施例对此不做限定。\n[0043] 205、对经过频域过滤的音频信号进行独立成分分解，滤除杂音，得到语音样本。\n[0044] 其中，通过步骤204的频域过滤之后得到的音频信号中可以包含多个声源发出的声音，可以进一步的将音频信号进行独立成分分解，滤除不符合有效语音命令特征的杂音。\n例如，杂音可以包括：背景音乐、宠物声音、儿童声音等。\n[0045] 在本发明实施例的一种应用场景中，可以将分解和过滤后得到的语音样本直接匹配并确定语音命令，具体方法可以包括：\n[0046] 206、将所述语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点进行匹配。\n[0047] 其中，预先配置所述语音命令素材库，所述语音命令素材库中可以包含语音命令以及语音命令对应的声音特征点。将所述语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点进行匹配，若语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点的匹配率达到规定匹配率，例如75％，则可以确定出对应的语音命令。若语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点的匹配率低于所述规定匹配率，则可以视为无效的语音样本，退出语音命令识别流程，或提示用户重新输入。\n[0048] 可以理解的是，所述规定匹配率的具体数值可以根据实际应用中对语音命令识别所需敏感度而调节，本发明实施例对此不做限定。\n[0049] 207、确定出匹配率最高且达到规定匹配率的语音命令。\n[0050] 其中，若满足规定匹配率的语音样本有且仅有一个，则可以直接确定对应的语音命令；若满足规定匹配率的语音样本有至少两个，则可以选择匹配率最高的语音样本，并确定与该匹配率最高且达到规定匹配率的语音样本对应的语音命令。\n[0051] 另外，也可以将达到规定匹配率的语音命令显示，以便用户选择所需语音命令或重新输入。具体的，若满足规定匹配率的语音样本有至少两个，可以确定出至少两个对应的语音命令，并将所述多个对应的语音命令呈现，以便用户选择所需语音命令对应的操作，或者选择重新输入语音命令。\n[0052] 208、执行所述语音命令对应的操作。\n[0053] 其中，语音命令对应的操作可以根据实际控制的设备具体设定，例如，“下一页”对应的操作可以为PPT或电子书的翻页；“开始”、“暂停”、“退出”等语音命令可以对应于应用程序的相关控制操作。\n[0054] 在本发明实施例的另一种应用场景中，可以将分解和过滤后得到的语音样本中匹配得到对应的关键词，从而确定出对应的语音命令。具体方法如图3所示，以上步骤206和\n207也可以替换为以下步骤：\n[0055] 209、将所述语音样本的声音特征点与语音命令素材库中的关键词特征点进行匹配，确定达到规定匹配率的关键词。\n[0056] 其中，预先配置所述语音命令素材库，所述语音命令素材库中可以包括语音命令、语音命令对应的关键词以及关键词特征点。将语音样本的声音特征点与语音命令素材库中的关键词特征点进行匹配，若语音样本的声音特征点与语音命令素材库中的关键词特征点的匹配率达到规定匹配率，例如75％，则可以确定出对应的关键词。若没有一个语音样本的声音特征点与语音命令素材库中的关键词特征点的匹配率达到所述规定匹配率，则可以视为无效的语音样本，退出语音命令识别流程，或提示用户重新输入。\n[0057] 可以理解的是，所述规定匹配率的具体数值可以根据实际应用中对语音命令识别所需敏感度而调节，本发明实施例对此不做限定。\n[0058] 210、根据所述关键词确定对应的语音命令。\n[0059] 其中，若匹配得到一个符合规定匹配率要求的关键词，则可以根据该匹配成功的关键词确定语音命令。若匹配得到多个符合规定匹配率要求的关键词，也可以根据匹配成功的关键词综合确定对应的语音命令。\n[0060] 另外，也可以将达与所述关键词相关的语音命令显示，以便用户选择所需语音命令或重新输入。具体的，可以根据关键词确定出多个对应的语音命令，并将所述多个对应的语音命令呈现，以便用户选择所需语音命令对应的操作，或者选择重新输入语音命令。\n[0061] 本发明实施例提供的语音命令识别方法，根据有效语音命令特征对接收到的音频信号进行分解和过滤，再进行语义识别确定语音命令，与现有的将接收到的音频信号与已录入的主人语音样本进行匹配的技术相比，可以不限制语音命令识别装置的使用者，提高对语音命令的识别率，并且无需预先录入大量语音样本，使得操作更便捷。\n[0062] 实施例3\n[0063] 本发明实施例提供一种语音命令识别装置，如图4所示，该装置可以包括：音频接收单元31、样本提取单元32、命令识别单元33。\n[0064] 音频接收单元31，用于接收音频信号。\n[0065] 样本提取单元32，用于根据有效语音命令特征对所述音频信号进行分解和过滤，得到语音样本。\n[0066] 命令识别单元33，用于对所述语音样本进行语义识别，确定对应的语音命令。\n[0067] 进一步的，如图5所示，该语音命令识别装置还可以包括：时域截取单元 34。\n[0068] 时域截取单元34，用于在所述音频接收单元31接收到音频信号之后，分析在接收周期中接收的音频信号，甄别时域信号中人类语音的开始点，截取有效人类语音的时域信号。\n[0069] 对应的，所述样本提取单元32还可以用于：根据有效语音命令特征对所述有效人类语音的时域信号进行分解和过滤，得到语音样本。\n[0070] 进一步的，该语音命令识别装置还可以包括：时域筛选单元35。\n[0071] 时域筛选单元35，用于在所述时域截取单元34截取有效人类语音的时域信号之后，在一次音频接收周期中截取到至少两个有效人类语音的时域信号时，根据有效语音命令的时域特征筛选出符合时域要求的音频信号。\n[0072] 进一步的，所述时域筛选单元35具体还用于：根据儿童声音高频特性和说话时长较成人稍短的特点，初步筛选成人语音的时域信号。\n[0073] 进一步的，所述样本提取单元32可以包括：第一过滤模块321、第二过滤模块322。\n[0074] 第一过滤模块321，用于对所述音频信号进行频域分解，滤除频率过高和/或频率过低的波段。\n[0075] 第二过滤模块322，用于对经过频域过滤的音频信号进行独立成分分解，滤除杂音，得到语音样本。\n[0076] 其中，所述杂音包括：背景音乐、宠物声音、儿童声音。\n[0077] 在本发明实施例的一种应用场景中，所述命令识别单元33可以包括：第一匹配模块331、第一确定模块332。\n[0078] 第一匹配模块331，用于将所述语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点进行匹配。\n[0079] 第一确定模块332，用于确定出匹配率最高且达到规定匹配率的语音命令，或者将达到规定匹配率的语音命令显示，以便用户选择所需语音命令或重新输入。\n[0080] 如图6所示，在本发明实施例的另一种应用场景中，所述命令识别单元33可以包括：第二匹配模块333、第二确定模块334。\n[0081] 第二匹配模块333，用于将所述语音样本的声音特征点与语音命令素材库中的关键词特征点进行匹配，确定达到规定匹配率的关键词。\n[0082] 第二确定模块334，用于根据所述关键词确定对应的语音命令，或者将与所述关键词相关的语音命令显示，以便用户选择所需语音命令或重新输入。\n[0083] 进一步的，该语音命令识别装置还可以包括：执行单元36\n[0084] 执行单元36，用于在所述命令识别单元33确定出对应的语音命令之后，执行所述语音命令对应的操作。\n[0085] 本发明实施例提供的语音命令识别装置，根据有效语音命令特征对接收到的音频信号进行分解和过滤，再进行语义识别确定语音命令，与现有的将接收到的音频信号与已录入的主人语音样本进行匹配的技术相比，可以不限制语音命令识别装置的使用者，提高对语音命令的识别率，并且无需预先录入大量语音样本，使得操作更便捷。\n[0086] 通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。\n[0087] 以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN102254558A	2011-11-23	2011-07-01	基于端点检测的智能轮椅语音识别的控制方法有效专利	重庆邮电大学
2	CN101516005A	2009-08-26	2008-02-23	一种语音识别频道选择系统、方法及频道转换装置无效专利	华为技术有限公司
3	CN101867742A	2010-10-20	2010-05-21	一种基于声控控制下的电视系统无效专利	中山大学
4	CN102237087A	2011-11-09	2010-04-27	语音控制方法和语音控制装置失效专利	中兴通讯股份有限公司

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供