著录项信息
专利名称 | 移动终端的语音处理方法及移动终端 |
申请号 | CN201210195644.1 | 申请日期 | 2012-06-13 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2014-01-01 | 公开/公告号 | CN103489451A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G10L21/0208 | IPC分类号 | G;1;0;L;2;1;/;0;2;0;8;;;G;1;0;L;2;1;/;0;2;3;2查看分类表>
|
申请人 | 百度在线网络技术(北京)有限公司 | 申请人地址 | 北京市海淀区上地十街10号百度大厦三层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 百度在线网络技术(北京)有限公司 | 当前权利人 | 百度在线网络技术(北京)有限公司 |
发明人 | 陈莹 |
代理机构 | 北京清亦华知识产权代理事务所(普通合伙) | 代理人 | 宋合成 |
摘要
本发明提出一种移动终端的语音处理方法及移动终端。其中,方法包括以下步骤:获取用户的语音信号;根据所述用户的语音信号获取用户的人声频率范围;根据所述用户的人声频率范围对所述语音信号进行滤波以滤除所述人声频率范围以外的声音信号;接收用户输入的目标频率范围;根据所述目标频率范围对滤波后的语音信号进行调频以使得所述滤波后的语音信号具有目标频率范围。本发明通过对语音信号进行滤波及调频处理,使得用户可以获得个性的声音美化效果,增加用户使用移动终端的趣味性,同时提高移动终端的智能性,更好地实现人机互动。
1.一种移动终端的语音处理方法,其特征在于,包括以下步骤:
获取用户的语音信号;
根据所述用户的语音信号获取用户的人声频率范围;
根据所述用户的人声频率范围对所述语音信号进行滤波以滤除所述人声频率范围以外的声音信号;
接收用户输入的目标频率范围;以及
根据所述目标频率范围对滤波后的语音信号进行调频以使得所述滤波后的语音信号具有所述目标频率范围;
对所述用户的语音信号进行声纹和语义文本识别以获取所述语音信号的语义文本和声纹特征;
判断所述语义文本中是否存在某个字或词语连续出现的次数超过三次,且所述声纹特征中是否含有爆破音;
如果存在,则去除后两个相同的字或词语以及爆破音。
2.根据权利要求1所述的移动终端的语音处理方法,其特征在于,还包括:
接收用户输入的背景声音;
根据所述背景声音对调频后的语音信号进行混音处理。
3.根据权利要求1所述的移动终端的语音处理方法,其特征在于,还包括:
如果所述语音信号为乐曲,则根据预定的节奏判断所述乐曲的节拍是否准确;
如果判断不准确,则根据所述预定的节奏调整音节的发音提前或滞后。
4.一种移动终端,其特征在于,包括:
获取模块,用于获取用户的语音信号;
计算模块,用于根据所述用户的语音信号获取用户的人声频率范围;
滤波模块,用于根据所述用户的人声频率范围对所述语音信号进行滤波以滤除所述人声频率范围以外的声音信号;
第一输入模块,用于接收用户输入的目标频率范围;
调频模块,用于根据所述目标频率范围对滤波后的语音信号进行调频以使得所述滤波后的语音信号具有所述目标频率范围;
识别模块,用于对所述用户的语音信号进行声纹和语义文本识别以获取所述语音信号的语义文本和声纹特征;
第一判断模块,用于判断所述语义文本中是否存在某个字或词语连续出现的次数超过三次,且所述声纹特征中是否含有爆破音;
优化模块,用于在所述第一判断模块确定所述语义文本中存在某个字或词语连续出现的次数超过三次,且所述声纹特征中含有爆破音时,去除后两个相同的字或词语以及爆破音。
5.根据权利要求4所述的移动终端,其特征在于,还包括:
第二输入模块,用于接收用户输入的背景声音;
混音模块,用于根据所述背景声音对调频后的语音信号进行混音处理。
6.根据权利要求4所述的移动终端,其特征在于,还包括:
第二判断模块,用于在所述语音信号为乐曲时,根据预定的节奏判断所述乐曲的节拍是否准确;
调整模块,用于在所述第二判断模块确定所述乐曲的节拍不准确时,根据所述预定的节奏调整音节的发音提前或滞后。
移动终端的语音处理方法及移动终端\n技术领域\n[0001] 本发明涉及移动设备制造技术领域,尤其涉及一种移动终端的语音处理方法及移动终端。\n背景技术\n[0002] 目前,随着移动业务的开展,人们通过移动终端能够实现更多的个性化功能,例如发送语音信息等,例如某男友录制一段浪漫的表白发送至女友。\n[0003] 现有技术存在的问题是,用户在录制声音的过程中经常存在很多环境杂音导致声音信号不清楚。此外,无法对声音进行任何的处理,因此无法实现个性化的声音定制,无法体现移动终端的智能性等。\n发明内容\n[0004] 本发明旨在至少解决上述技术问题之一。\n[0005] 为此,本发明的一个目的在于提出一种能够对用户的声音进行美化的移动终端的语音处理方法。\n[0006] 本发明的另一目的在于提出一种移动终端。\n[0007] 为了实现上述目的,根据本发明的第一方面实施例的移动终端的语音处理方法,包括以下步骤:获取用户的语音信号;根据所述用户的语音信号获取用户的人声频率范围;\n根据所述用户的人声频率范围对所述语音信号进行滤波以滤除所述人声频率范围以外的声音信号;接收用户输入的目标频率范围;根据所述目标频率范围对滤波后的语音信号进行调频以使得所述滤波后的语音信号具有目标频率范围。\n[0008] 根据本发明实施例的移动终端的语音处理方法,通过对语音信号进行滤波及调频处理,使得用户可以获得个性的声音美化效果,增加用户使用移动终端的趣味性,同时提高移动终端的智能性,更好地实现人机互动。\n[0009] 为了实现上述目的,根据本发明的第二方面实施例的移动终端,包括:获取模块,用于获取用户的语音信号;计算模块,用于根据所述用户的语音信号获取用户的人声频率范围;滤波模块,用于根据所述用户的人声频率范围对所述语音信号进行滤波以滤除人声频率范围以外的声音信号;第一输入模块,用于接收用户输入的目标频率范围;调频模块,用于根据目标频率范围对滤波后的语音信号进行调频以使得所述滤波后的语音信号具有所述目标频率范围。\n[0010] 根据本发明实施例的移动终端,通过对语音信号进行滤波及调频处理,使得用户可以获得个性的声音美化效果,增加用户使用移动终端的趣味性,同时提高移动终端的智能性,更好地实现人机互动。\n[0011] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。\n附图说明\n[0012] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,\n[0013] 图1是根据本发明一个实施例的移动终端的语音处理方法的流程图;\n[0014] 图2是根据本发明一个实施例的移动终端的语音处理方法的流程图;\n[0015] 图3是根据本发明一个实施例的移动终端的语音处理方法的流程图;\n[0016] 图4是根据本发明一个实施例的移动终端的语音处理方法的流程图;\n[0017] 图5是根据本发明一个实施例的移动终端的结构示意图;\n[0018] 图6是根据本发明一个实施例的移动终端的结构示意图;\n[0019] 图7是根据本发明一个实施例的移动终端的结构示意图;以及\n[0020] 图8是根据本发明一个实施例的移动终端的结构示意图。\n具体实施方式\n[0021] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。\n[0022] 在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。\n[0023] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。\n[0024] 下面参考附图描述根据本发明实施例的移动终端的语音处理方法。\n[0025] 一种移动终端的语音处理方法,包括以下步骤:获取用户的语音信号;根据用户的语音信号获取用户的人声频率范围;根据用户的人声频率范围对语音信号进行滤波以滤除人声频率范围以外的声音信号;接收用户输入的目标频率范围;以及根据目标频率范围对滤波后的语音信号进行调频以使得滤波后的语音信号具有目标频率范围。\n[0026] 图1是根据本发明一个实施例的移动终端的语音处理方法的流程图。\n[0027] 如图1所示,根据本发明实施例的移动终端的语音处理方法包括下述步骤。\n[0028] 步骤S101,获取用户的语音信号。\n[0029] 例如,通过移动终端的麦克风录制一段声音,该声音可以为文字或者乐曲等。在本发明的实施例中,移动终端可以是手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。在该硬件设备中可采用任何的操作系统,例如Android、iPhoneOS系统等。\n[0030] 步骤S102,根据用户的语音信号获取用户的人声频率范围。\n[0031] 具体地,可参见现有技术,通过逐个学习用户的声音发生曲线获取用户的人声频率范围,此处不再详细描述。\n[0032] 步骤S103,根据用户的人声频率范围对语音信号进行滤波以滤除人声频率范围以外的声音信号。\n[0033] 应理解,除了滤除人声频率范围以外的声音信号(如环境噪音等)之外,还可以对人声频率范围内的声音信号(即人声)进行增强。\n[0034] 步骤S104,接收用户输入的目标频率范围。\n[0035] 步骤S105,根据目标频率范围对滤波后的语音信号进行调频以使得滤波后的语音信号具有目标频率范围。\n[0036] 例如,假设用户为男性,其希望自己的声音听起来低沉圆润,那么他可以输入目标频率范围为男中音的频率范围,然后移动终端将根据该目标频率范围对该用户的声音进行调频以将该用户的声音频率范围处理为男中音的频率范围。或者,某女性用户可将自己的声音处理得柔美高昂。具体的调频方法可参见现有技术,此处不再详细描述。\n[0037] 根据本发明实施例的移动终端的语音处理方法,通过对语音信号进行滤波及调频处理,使得用户可以获得个性的声音美化效果,增加用户使用移动终端的趣味性,同时提高移动终端的智能性,更好地实现人机互动。\n[0038] 图2是根据本发明一个实施例的移动终端的语音处理方法的流程图。\n[0039] 如图2所示,根据本发明实施例的移动终端的语音处理方法包括下述步骤。\n[0040] 步骤S201,获取用户的语音信号。\n[0041] 步骤S202,根据用户的语音信号获取用户的人声频率范围。\n[0042] 步骤S203,根据用户的人声频率范围对语音信号进行滤波以滤除人声频率范围以外的声音信号。\n[0043] 步骤S204,接收用户输入的目标频率范围。\n[0044] 步骤S205,根据目标频率范围对滤波后的语音信号进行调频以使得滤波后的语音信号具有目标频率范围。\n[0045] 上述步骤S201至S205的具体实现过程可参见上述步骤S101至S105的描述,此处不再详细描述。\n[0046] 步骤S206,接收用户输入的背景声音。\n[0047] 步骤S207,根据背景声音对滤波后的语音信号进行混音处理。\n[0048] 例如,某男性用户想向女友发送一段浪漫的表白,那么他可以为文字配上海浪的声音等作为背景音,从而实现更好更浪漫的效果。具体的可采用现有技术的混音方法,此处不再详细描述。\n[0049] 根据本发明实施例的移动终端的语音处理方法,通过对用户的声音进行混音处理,进一步提高声音美化的效果,增加用户使用移动终端的趣味性,同时提高移动终端的智能性,更好地实现人机互动。\n[0050] 图3是根据本发明一个实施例的移动终端的语音处理方法的流程图。\n[0051] 如图3所示,根据本发明实施例的移动终端的语音处理方法包括下述步骤。\n[0052] 步骤S301,接收用户的语音信号。\n[0053] 步骤S302,根据用户的语音信号获取用户的人声频率范围。\n[0054] 步骤S303,根据用户的人声频率范围对语音信号进行滤波以滤除人声频率范围以外的声音信号。\n[0055] 步骤S304,接收用户输入的目标频率范围。\n[0056] 步骤S305,根据目标频率范围对滤波后的语音信号进行调频以使得滤波后的语音信号具有目标频率范围。\n[0057] 步骤S306,接收用户输入的背景声音。\n[0058] 步骤S307,根据背景声音对调频后的语音信号进行混音处理。\n[0059] 上述步骤S301至S307的具体实现过程可参见上述步骤S201至S207的描述,此处不再详细描述。\n[0060] 步骤S308,对用户的语音信号进行声纹和语义文本识别以获取语音信号的语义文本和声纹特征。\n[0061] 具体地,在本发明的一个实施例中,声纹特征包括词法特征、口音等[0062] 步骤S309,判断语义文本中是否存在某个字或词语连续出现的次数超过三次,且声纹特征中含有爆破音。\n[0063] 步骤S310,如果判断存在,则去除后两个字或词语以及爆破音。\n[0064] 例如,用户在录制声音的时候,可能由于紧张等原因而磕巴。此时,为了优化声音效果,可以去掉多余的重复字或词语以及因磕巴而产生的爆破音等。\n[0065] 根据本发明实施例的移动终端的语音处理方法,通过去掉磕巴和拖尾的声音,进一步提高声音美化的效果,同时提高移动终端的智能性,更好地实现人机互动。\n[0066] 在本发明的一个实施例中,步骤S306和S307为可选的。\n[0067] 图4是根据本发明一个实施例的移动终端的语音处理方法的流程图。\n[0068] 如图4所示,根据本发明实施例的移动终端的语音处理方法包括下述步骤。\n[0069] 步骤S401,获取用户的语音信号。\n[0070] 步骤S402,根据用户的语音信号获取用户的人声频率范围。\n[0071] 步骤S403,根据用户的人声频率范围对语音信号进行滤波以滤除人声频率范围以外的声音信号。\n[0072] 步骤S404,接收用户输入的目标频率。\n[0073] 步骤S405,根据目标频率对滤波后的语音信号进行调频以使得滤波后的语音信号具有目标频率范围。\n[0074] 步骤S406,接收用户输入的背景声音。\n[0075] 步骤S407,根据背景声音对调频后的语音信号进行混音处理。\n[0076] 步骤S408,对用户的语音信号进行声纹和语义文本识别以获取语音信号的语义文本和声纹特征。\n[0077] 步骤S409,判断语义文本中是否存在某个字或词语连续出现的次数超过三次,且声纹特征中是否含有爆破音。\n[0078] 步骤S410,如果存在,在去除后两个相同的字或词语以及爆破音。\n[0079] 步骤S411,如果用户输入的语音信号为乐曲,则根据预定的节奏判断乐曲的节拍是否准确。\n[0080] 步骤S412,如果判断不准确,则根据预定的节奏调整音节的发音提前或滞后。\n[0081] 应理解,上述步骤S411和S412仅针对用户输入乐曲时进行节奏调整,当用户输入的为一段文字,则无需进行该调整。\n[0082] 根据本发明实施例的移动终端的语音处理方法,通过对节奏的调整进一步提高对音乐声音的美化效果,增加用户使用移动终端的趣味性,同时提高移动终端的智能性,更好地实现人机交互。\n[0083] 应理解,上述实施例仅为示意性的例子,本领域的技术人员还可在上述实施例的基础上增加不同种类声音的滤镜,达到个性化美化的需求,这些均应包含在本发明的保护范围内。\n[0084] 下面结合附图详细描述根据本发明实施例的移动终端。\n[0085] 一种移动终端,包括:获取模块,用于获取用户的语音信号;计算模块,用于根据用户的语音信号获取用户的人声频率范围。滤波模块,用于根据用户的人声频率范围对语音信号进行滤波以滤除人声频率范围以外的声音信号;第一输入模块,用于接收用户输入的目标频率范围;以及调频模块,用户根据目标频率范围对滤波后的语音信号进行调频以使得滤波后的语音信号具有该目标频率范围。\n[0086] 图5是根据本发明一个实施例的移动终端的结构示意图。如图5所示,该移动终端包括:获取模块110、计算模块120、滤波模块130、第一输入模块140和调频模块150。\n[0087] 获取模块110用于获取用户的语音信号。计算模块120用于根据用户的语音信号获取用户的人声频率范围。滤波模块130用于根据用户的人声频率范围对语音信号进行滤波以滤除人声频率范围以外的声音信号。第一输入模块140用于接收用户输入的目标频率范围。调频模块150用于根据目标频率范围对滤波后的语音信号进行调频以使得滤波后的语音信号具有目标频率范围。\n[0088] 例如,某男性用户想向女友发送一段浪漫的表白,其希望自己的声音听起来清楚且低沉圆润。那么获取模块110首先获取该男性用户输入的语音信号,然后计算模块120通过逐个学习用户的声音发生曲线获取该男性用户的声音频率范围。之后,滤波模块130根据该男性用户的声音频率范围滤除频率范围以外的噪音信号提高语音信号的清晰度。接着,该男性用户可通过第一输入模块140定义自己期望的目标频率,然后移动终端的调频模块\n150自动对语音信号进行调频以满足其需求。\n[0089] 根据本发明实施例的移动终端,通过对语音信号进行滤波及调频处理,使得用户可以获得个性的声音美化效果,增加用户使用移动终端的趣味性,同时提高移动终端的智能性,更好地实现人机互动。\n[0090] 图6是根据本发明一个实施例的移动终端的结构示意图。如图6所示,在图5所示的实施例的基础上,该移动终端还包括第二输入模块160和混音模块170。\n[0091] 第二输入模块160用于接收用户输入的背景声音。混音模块170用于根据背景声音对滤波后的语音信号进行混音处理。\n[0092] 例如,某男性用户想向女友发送一段浪漫的表白,那么他可以为文字配上海浪的声音等作为背景音,从而实现更好更浪漫的效果。\n[0093] 根据本发明实施例的移动终端,通过对用户的声音进行混音处理,进一步提高声音美化的效果,增加用户使用移动终端的趣味性,同时提高移动终端的智能性,更好地实现人机互动。\n[0094] 图7是根据本发明一个实施例的移动终端的结构示意图。如图7所示,在图6所示的实施例的基础上,该移动终端还包括识别模块180、第一判断模块190和优化模块1100。\n[0095] 识别模块180用于对用户的语音信号进行声纹和语义文本识别以获取语音信号的语义文本和声纹特征。第一判断模块190用于判断语义文本中是否存在某个字或词语连续出现的次数超过三次,且声纹特征中是否含有爆破音。优化模块1100用于在第一判断模块\n190确定语义文本中存在某个字或词语连续出现的次数超过三次且声纹特征中含有爆破音时,去除后两个相同的字或词语以及爆破音。\n[0096] 例如,用户在录制声音的时候,可能由于紧张等原因而磕巴。此时,为了优化声音效果,可以去掉多余的重复字或词语以及因磕巴而产生的爆破音等。\n[0097] 根据本发明实施例的移动终端,通过去掉磕巴和拖尾的声音,进一步提高声音美化的效果,同时提高移动终端的智能性,更好地实现人机互动。\n[0098] 在本发明的一个实施例中,第二输入模块160和混音模块170为可选的。\n[0099] 图8是根据本发明一个实施例的移动终端的结构示意图。如图8所示,在图7所示的实施例的基础上,该移动终端还包括第二判断模块1200和调整模块1300。\n[0100] 第二判断模块1200用于在语音信号为乐曲时,根据预定的节奏判断乐曲的节拍是否准确。调整模块1300用于在第二判断模块1200确定乐曲的节拍不准确时,根据预定的节奏调整音节的发音提前或滞后。\n[0101] 根据本发明实施例的移动终端,通过对节奏的调整进一步提高对音乐声音的美化效果,增加用户使用移动终端的趣味性,同时提高移动终端的智能性,更好地实现人机交互。\n[0102] 在本发明的一个实施例中,第二输入模块160、混音模块170、识别模块180、第一判断模块190和优化模块1100为可选的。\n[0103] 应理解,在本发明的上述实施例中,移动终端可以是手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。在该硬件设备中可采用任何的操作系统,例如Android、iPhoneOS系统等。\n[0104] 应理解,上述各个模块或者装置的具体实现过程可与上述方法实施例的描述相对应,此处不再详细描述。\n[0105] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。\n[0106] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。\n[0107] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。
法律信息
- 2016-11-23
- 2014-02-05
实质审查的生效
IPC(主分类): G10L 21/0208
专利申请号: 201210195644.1
申请日: 2012.06.13
- 2014-01-01
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| | 暂无 |
2003-08-06
| | |
2
| |
2012-05-16
|
2010-05-27
| | |
3
| |
2008-07-16
|
2008-01-23
| | |
4
| |
2006-03-15
|
2004-01-28
| | |
5
| |
2010-03-10
|
2009-09-16
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |