语音命令识别方法及装置\n技术领域\n[0001] 本发明涉及声控技术领域,尤其涉及一种语音命令识别方法及装置。\n背景技术\n[0002] 随着声控技术的发展,声控技术被广泛应用到人们日常生活和工作中。声控技术是一种可以将人类语音作为输入命令的控制技术,使用时不可避免的会遇到使用者语音与周围环境噪声、其他人员语音等噪音的混叠,因此如何将非重要声源发出的声音过滤,并准确识别重要声源的语音命令,成为声控设备需要解决的一个重要问题。相应的,声控设备对语音识别的准确度和声控设备的友好性成为业内关注的重要课题。\n[0003] 现有技术中,声控设备仅能识别预定的人声。例如,声控设备的操控者是主人A,则通过录入大量的主人A的语音样本后,将主人A的语音样本存储为标准命令数据库,作为语音命令识别的依据。主人B在操控声控设备时,由于主人B与主人A的声音频率、音色等特征不同,即使发出同样的语音命令,也不能被识别。\n[0004] 因此,在实现上述语音命令识别的过程中,发明人发现现有技术中至少存在如下问题:由于根据预先录入的操控者的语音样本作为语音命令的识别依据,声控设备的操控人员受到限制,导致语音识别率低;并且,任何操控者在使用声控设备前,必须进行大量的标准命令库的录入,增加了操作难度,导致使用过程不友好。\n发明内容\n[0005] 本发明的实施例提供一种语音命令识别方法及装置,可以提高语音识别率,并使得操作过程更便捷。\n[0006] 为达到上述目的,本发明的实施例采用如下技术方案:\n[0007] 一种语音命令识别方法,包括:\n[0008] 接收音频信号;\n[0009] 根据有效语音命令特征对所述音频信号进行分解和过滤,得到语音样本;\n[0010] 对所述语音样本进行语义识别,确定对应的语音命令。\n[0011] 一种语音命令识别装置,包括:\n[0012] 音频接收单元,用于接收音频信号;\n[0013] 样本提取单元,用于根据有效语音命令特征对所述音频信号进行分解和过滤,得到语音样本;\n[0014] 命令识别单元,用于对所述语音样本进行语义识别,确定对应的语音命令。\n[0015] 本发明实施例提供的语音命令识别方法及装置,根据有效语音命令特征对接收到的音频信号进行分解和过滤,再进行语义识别确定语音命令,与现有的将接收到的音频信号与已录入的主人语音样本进行匹配的技术相比,可以不限制语音命令识别装置的使用者,提高对语音命令的识别率,并且无需预先录入大量语音样本,使得操作更便捷。\n附图说明\n[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。\n[0017] 图1为本发明实施例1的语音命令识别方法流程图;\n[0018] 图2为本发明实施例2中的一种语音命令识别方法流程图;\n[0019] 图3为本发明实施例2中的另一种语音命令识别方法流程图;\n[0020] 图4为本发明实施例3中的一种语音命令识别装置组成示意图;\n[0021] 图5为本发明实施例3中的另一种语音命令识别装置组成示意图;\n[0022] 图6为本发明实施例3中的另一种语音命令识别装置组成示意图。\n具体实施方式\n[0023] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。\n[0024] 实施例1\n[0025] 本发明实施例提供一种语音命令识别方法,如图1所示,该方法可以包括:\n[0026] 101、接收音频信号。\n[0027] 其中,音频信号的来源并不限定在特定的使用者,可以是成人或儿童、男性或女性等,本发明提供的语音命令识别方法可以接收并识别各种不同音色的人类语言的语音命令。在特殊情况下,例如语音命令识别装置并不希望被儿童使用,或视儿童的声音并不是特定的语音命令,则可以分解和过滤过程中,将 不需要的声音滤除。\n[0028] 并且,在实际操作过程中,可以直接接收音频信号进行相关过滤和识别操作,可以不用预先录入使用者的声音样本库,使得语音命令识别装置更简单易用,提高用户体验。\n[0029] 102、根据有效语音命令特征对所述音频信号进行分解和过滤,得到语音样本。\n[0030] 其中,有效语音命令特征可以根据实际应用需要设定,例如,频率较高而声音短促的音频信号可以视为是儿童的声音,或者在整个音频信号中持续存在的低频声音可以视为是环境噪音等,这些都不符合有效语音命令特征,因此可以将不关心的声音成分滤除,得到符合要求的有效语音命令。\n[0031] 103、对所述语音样本进行语义识别,确定对应的语音命令。\n[0032] 其中,在步骤102中得到语音样本后,对所述语音样本进行语义识别,确定对应的语音命令的方法具体可以为:将所述语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点进行匹配;确定出匹配率最高且达到规定匹配率的语音命令。对所述语音样本进行语义识别,确定对应的语音命令的方法具体也可以为:将所述语音样本的声音特征点与语音命令素材库中的关键词特征点进行匹配,确定达到规定匹配率的关键词;\n根据所述关键词确定对应的语音命令。\n[0033] 本发明实施例提供的语音命令识别方法,根据有效语音命令特征对接收到的音频信号进行分解和过滤,再进行语义识别确定语音命令,与现有的将接收到的音频信号与已录入的主人语音样本进行匹配的技术相比,可以不限制语音命令识别装置的使用者,提高对语音命令的识别率,并且无需预先录入大量语音样本,使得操作更便捷。\n[0034] 实施例2\n[0035] 本发明实施例提供一种语音命令识别方法,如图2所示,该方法可以包括:\n[0036] 201、接收音频信号。\n[0037] 202、分析在音频接收周期中接收的音频信号,甄别时域信号中人类语音的开始点,截取有效人类语音的时域信号。\n[0038] 其中,一个完整的音频接收周期时长与一个语音命令的语音时长可能不相同,或者在一个完整的音频接收周期中可能接收到多个人类语言,或多个语音命令。因此,可以分析在音频接收周期中接收的音频信号,甄别时域信号中人类语音的开始点,截取有效人类语音的时域信号。\n[0039] 203、若在所述音频接收周期中截取到至少两个有效人类语音的时域信号,则根据有效语音命令的时域特征筛选出符合时域要求的音频信号。\n[0040] 其中,若在一个音频接收周期中截取到不止一个有效人类语音的时域信号,即在所述音频接收周期中接收的音频信号中包含至少两个时域信号。可以根据有效语音命令的时域特征筛选出符合时域要求的时域信号,作为后续处理所需的音频信号。具体的,若将成人的语音作为有效语音命令,则可以根据儿童声音高频特性和说话时长较成人稍短的特点,初步筛选成人语音的时域信号。\n[0041] 204、对所述音频信号进行频域分解,滤除频率过高和/或频率过低的波段。\n[0042] 其中,经过步骤202-203对音频信号的时域分析和过滤之后,可以进一步的对过滤后的音频信号进行频域分析和过滤。具体的,可以将频率高于第一阈值的声音作为儿童吵闹的噪音滤除,也可以将频率低于第二阈值的声音作为环境噪音滤除,或者将频率过高和过低的声音均滤除。具体频率的阈值和滤除的标准可以根据实际语音命令识别装置的应用环境进行设定,本发明实施例对此 不做限定。\n[0043] 205、对经过频域过滤的音频信号进行独立成分分解,滤除杂音,得到语音样本。\n[0044] 其中,通过步骤204的频域过滤之后得到的音频信号中可以包含多个声源发出的声音,可以进一步的将音频信号进行独立成分分解,滤除不符合有效语音命令特征的杂音。\n例如,杂音可以包括:背景音乐、宠物声音、儿童声音等。\n[0045] 在本发明实施例的一种应用场景中,可以将分解和过滤后得到的语音样本直接匹配并确定语音命令,具体方法可以包括:\n[0046] 206、将所述语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点进行匹配。\n[0047] 其中,预先配置所述语音命令素材库,所述语音命令素材库中可以包含语音命令以及语音命令对应的声音特征点。将所述语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点进行匹配,若语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点的匹配率达到规定匹配率,例如75%,则可以确定出对应的语音命令。若语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点的匹配率低于所述规定匹配率,则可以视为无效的语音样本,退出语音命令识别流程,或提示用户重新输入。\n[0048] 可以理解的是,所述规定匹配率的具体数值可以根据实际应用中对语音命令识别所需敏感度而调节,本发明实施例对此不做限定。\n[0049] 207、确定出匹配率最高且达到规定匹配率的语音命令。\n[0050] 其中,若满足规定匹配率的语音样本有且仅有一个,则可以直接确定对应的语音命令;若满足规定匹配率的语音样本有至少两个,则可以选择匹配率最高的语音样本,并确定与该匹配率最高且达到规定匹配率的语音样本对应的语 音命令。\n[0051] 另外,也可以将达到规定匹配率的语音命令显示,以便用户选择所需语音命令或重新输入。具体的,若满足规定匹配率的语音样本有至少两个,可以确定出至少两个对应的语音命令,并将所述多个对应的语音命令呈现,以便用户选择所需语音命令对应的操作,或者选择重新输入语音命令。\n[0052] 208、执行所述语音命令对应的操作。\n[0053] 其中,语音命令对应的操作可以根据实际控制的设备具体设定,例如,“下一页”对应的操作可以为PPT或电子书的翻页;“开始”、“暂停”、“退出”等语音命令可以对应于应用程序的相关控制操作。\n[0054] 在本发明实施例的另一种应用场景中,可以将分解和过滤后得到的语音样本中匹配得到对应的关键词,从而确定出对应的语音命令。具体方法如图3所示,以上步骤206和\n207也可以替换为以下步骤:\n[0055] 209、将所述语音样本的声音特征点与语音命令素材库中的关键词特征点进行匹配,确定达到规定匹配率的关键词。\n[0056] 其中,预先配置所述语音命令素材库,所述语音命令素材库中可以包括语音命令、语音命令对应的关键词以及关键词特征点。将语音样本的声音特征点与语音命令素材库中的关键词特征点进行匹配,若语音样本的声音特征点与语音命令素材库中的关键词特征点的匹配率达到规定匹配率,例如75%,则可以确定出对应的关键词。若没有一个语音样本的声音特征点与语音命令素材库中的关键词特征点的匹配率达到所述规定匹配率,则可以视为无效的语音样本,退出语音命令识别流程,或提示用户重新输入。\n[0057] 可以理解的是,所述规定匹配率的具体数值可以根据实际应用中对语音命令识别所需敏感度而调节,本发明实施例对此不做限定。\n[0058] 210、根据所述关键词确定对应的语音命令。\n[0059] 其中,若匹配得到一个符合规定匹配率要求的关键词,则可以根据该匹配成功的关键词确定语音命令。若匹配得到多个符合规定匹配率要求的关键词,也可以根据匹配成功的关键词综合确定对应的语音命令。\n[0060] 另外,也可以将达与所述关键词相关的语音命令显示,以便用户选择所需语音命令或重新输入。具体的,可以根据关键词确定出多个对应的语音命令,并将所述多个对应的语音命令呈现,以便用户选择所需语音命令对应的操作,或者选择重新输入语音命令。\n[0061] 本发明实施例提供的语音命令识别方法,根据有效语音命令特征对接收到的音频信号进行分解和过滤,再进行语义识别确定语音命令,与现有的将接收到的音频信号与已录入的主人语音样本进行匹配的技术相比,可以不限制语音命令识别装置的使用者,提高对语音命令的识别率,并且无需预先录入大量语音样本,使得操作更便捷。\n[0062] 实施例3\n[0063] 本发明实施例提供一种语音命令识别装置,如图4所示,该装置可以包括:音频接收单元31、样本提取单元32、命令识别单元33。\n[0064] 音频接收单元31,用于接收音频信号。\n[0065] 样本提取单元32,用于根据有效语音命令特征对所述音频信号进行分解和过滤,得到语音样本。\n[0066] 命令识别单元33,用于对所述语音样本进行语义识别,确定对应的语音命令。\n[0067] 进一步的,如图5所示,该语音命令识别装置还可以包括:时域截取单元 34。\n[0068] 时域截取单元34,用于在所述音频接收单元31接收到音频信号之后,分析在接收周期中接收的音频信号,甄别时域信号中人类语音的开始点,截取有效人类语音的时域信号。\n[0069] 对应的,所述样本提取单元32还可以用于:根据有效语音命令特征对所述有效人类语音的时域信号进行分解和过滤,得到语音样本。\n[0070] 进一步的,该语音命令识别装置还可以包括:时域筛选单元35。\n[0071] 时域筛选单元35,用于在所述时域截取单元34截取有效人类语音的时域信号之后,在一次音频接收周期中截取到至少两个有效人类语音的时域信号时,根据有效语音命令的时域特征筛选出符合时域要求的音频信号。\n[0072] 进一步的,所述时域筛选单元35具体还用于:根据儿童声音高频特性和说话时长较成人稍短的特点,初步筛选成人语音的时域信号。\n[0073] 进一步的,所述样本提取单元32可以包括:第一过滤模块321、第二过滤模块322。\n[0074] 第一过滤模块321,用于对所述音频信号进行频域分解,滤除频率过高和/或频率过低的波段。\n[0075] 第二过滤模块322,用于对经过频域过滤的音频信号进行独立成分分解,滤除杂音,得到语音样本。\n[0076] 其中,所述杂音包括:背景音乐、宠物声音、儿童声音。\n[0077] 在本发明实施例的一种应用场景中,所述命令识别单元33可以包括:第一匹配模块331、第一确定模块332。\n[0078] 第一匹配模块331,用于将所述语音样本的声音特征点与语音命令素材库中的语音命令对应的声音特征点进行匹配。\n[0079] 第一确定模块332,用于确定出匹配率最高且达到规定匹配率的语音命令,或者将达到规定匹配率的语音命令显示,以便用户选择所需语音命令或重新输入。\n[0080] 如图6所示,在本发明实施例的另一种应用场景中,所述命令识别单元33可以包括:第二匹配模块333、第二确定模块334。\n[0081] 第二匹配模块333,用于将所述语音样本的声音特征点与语音命令素材库中的关键词特征点进行匹配,确定达到规定匹配率的关键词。\n[0082] 第二确定模块334,用于根据所述关键词确定对应的语音命令,或者将与所述关键词相关的语音命令显示,以便用户选择所需语音命令或重新输入。\n[0083] 进一步的,该语音命令识别装置还可以包括:执行单元36\n[0084] 执行单元36,用于在所述命令识别单元33确定出对应的语音命令之后,执行所述语音命令对应的操作。\n[0085] 本发明实施例提供的语音命令识别装置,根据有效语音命令特征对接收到的音频信号进行分解和过滤,再进行语义识别确定语音命令,与现有的将接收到的音频信号与已录入的主人语音样本进行匹配的技术相比,可以不限制语音命令识别装置的使用者,提高对语音命令的识别率,并且无需预先录入大量语音样本,使得操作更便捷。\n[0086] 通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备 等)执行本发明各个实施例所述的方法。\n[0087] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2011-11-23
|
2011-07-01
| | |
2
| |
2009-08-26
|
2008-02-23
| | |
3
| |
2010-10-20
|
2010-05-21
| | |
4
| |
2011-11-09
|
2010-04-27
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |