人机语音交互方法及系统

发明专利有效专利

申请号：
CN201410830417.0
IPC分类号：G10L15/22;G10L15/18
申请日期：
2014-12-26
申请人：
湖南华凯文化创意股份有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	人机语音交互方法及系统
申请号	CN201410830417.0	申请日期	2014-12-26
法律状态	暂无	申报国家	中国
公开/公告日	2015-04-08	公开/公告号	CN104505091A
优先权	暂无	优先权号	暂无
主分类号	G10L15/22 ? IPC结构图谱： G 物理 G0 仪器 G10 乐器；声学 G10L 语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码〔4〕 G10L15/00 语音识别（G10L 17/00优先）〔7，2013.01〕 G10L15/22 在语音识别过程中（例如在人机对话过程中）使用的程序〔7〕	IPC分类号	G;1;0;L;1;5;/;2;2;;;G;1;0;L;1;5;/;1;8查看分类表>
申请人	湖南华凯文化创意股份有限公司	申请人地址	上海市静安区共和新路3088弄2号301室变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	上海华凯展览展示工程有限公司	当前权利人	上海华凯展览展示工程有限公司
发明人	周新华;王小兰
代理机构	广州华进联合专利商标代理有限公司	代理人	秦雪梅;谢伟

摘要

本发明公开了一种人机语音交互方法及系统，通过采集用户的语音信息，分析语音信息得出语言类型，对语音信息采用与语言类型对应的识别模式进行识别，将该语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息，再将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息；当得到的上述两种信息存在关联时，则将两种信息同步输出。通过上述人机语音交互方法，可识别多种语言的语音，实现多种语言的交互，且同时实现视频与语音的同步回应，使客户体验感更强，且通过判断反馈语音信息与反馈视频信息的关联性，实现反馈语音信息与反馈视频信息的一致性，提高交互准确率，且声音和画面更加的协调与同步。

人机语音交互方法及系统\n技术领域\n[0001] 本发明涉及电子产品技术领域，特别是涉及人机语音交互方法及系统。\n背景技术\n[0002] 随着科技的进步，数字文化馆内的电子产品越来越多，也越来越智能化，人机语音交互产品就是其中一个。人机语音交互系统可以为参观的客户提供有效的人机交互功能，通过语音与机器进行交流，让机器明白人说的是什么，并给出相应的回答。例如，通过人机语音交互系统获取数字文化馆内的相关产品的介绍以及相关功能，也可通过人机语音交互系统为客户指引路径，告诉客户想要去的地方的路线等功能。\n[0003] 然而，现有的人机语音交互方法及系统只是通过采集语音信息，然后对语音信息进行识别，再通过该语音信息调取数据库中预先存储的语音回应信息并输出，对用户的问题进行解答，实现人机语音交互。这种人机语音交互系统功能单一，交互准确性比较低。\n发明内容\n[0004] 基于此，有必要针对现有的人机语音交互方法及系统的交互准确性较低的问题，提供一种人机语音交互方法及系统。\n[0005] 一种人机语音交互方法，包括以下步骤：\n[0006] 采集用户的语音信息；\n[0007] 对所述语音信息进行分析，得出所述语音信息所对应的语言类型；\n[0008] 对所述语音信息采用与所述语言类型对应的识别模式进行识别；\n[0009] 将识别的所述语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的所述反馈语音信息；\n[0010] 将识别的所述语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的所述反馈视频信息；\n[0011] 判断匹配的所述反馈语音信息与匹配的所述反馈视频信息是否存在关联；\n[0012] 若匹配的所述反馈语音信息与匹配的所述反馈视频信息存在关联；\n[0013] 则将匹配的所述反馈语音信息与匹配的所述反馈视频信息同步输出；\n[0014] 显示所述反馈视频信息。\n[0015] 本发明还公开一种人机语音交互系统，包括：\n[0016] 采集模块，用于采集用户的语音信息；\n[0017] 语音分析模块，用于对所述语音信息进行分析，得出所述语音信息所对应的语言类型；\n[0018] 语音识别模块，用于对所述语音信息采用与所述语言类型对应的识别模式进行识别；\n[0019] 第一匹配模块，用于将识别的所述语音信息与预先存储的反馈语音信息进行检索匹配；\n[0020] 第二匹配模块，用于将识别的所述语音信息与预先存储的反馈视频信息进行检索匹配；\n[0021] 关联判断模块，用于判断匹配的所述反馈语音信息与匹配的所述反馈视频信息是否存在关联；\n[0022] 输出模块，用于将匹配的所述反馈语音信息与匹配的所述反馈视频信息同步输出；\n[0023] 显示模块，用于显示所述反馈视频信息。\n[0024] 上述人机语音交互方法及系统，通过不同的识别模式对不同语言的语音信息进行识别，再将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息，再将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息；当匹配的反馈语音信息与匹配的反馈视频信息存在关联时，则将这两种信息同步输出。通过上述人机语音交互方法，可识别多种语言的语音，实现多种语言的交互，且同时实现视频与语音的同步输出，使客户体验感更强，且通过判断反馈语音信息与反馈视频信息的关联性，实现反馈语音信息与反馈视频信息的一致性，提高交互准确率，提高声音和画面的协调性。\n附图说明\n[0025] 图1为一种实施方式的人机语音交互方法的流程图；\n[0026] 图2为一种实施方式的人机语音交互系统的模块图；\n[0027] 图3为另一实施方式的人机语音交互系统中的结构子模块图。\n具体实施方式\n[0028] 为了使本发明的目的、技术方案和优点更加清楚明了，以下根据附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。\n[0029] 请参考参阅1，一种人机语音交互方法，包括以下步骤：\n[0030] S100：采集用户的语音信息。\n[0031] 只有通过采集到用户的语音信息，才能根据用户的语音信息进行后续相应的处理，整个系统是以用户的语音信息为依据，为用户提供相应的回应，实现人机语音交互。\n[0032] S200：对语音信息进行分析，得出语音信息所对应的语言类型。\n[0033] 不同的用户可能采用不同的语言方式进行交互，即采用不同的语种进行交互，例如，采用中文、英文或其他语种，则采集的用户语音信息包括多种语言的语音信息，若对不同语言类型的语音信息均采用同样的识别模式进行识别，则识别错误率会较高，所以首先需要分析采集的用户语音信息的语言类型。\n[0034] S300：对语音信息采用与语言类型对应的识别模式进行识别。\n[0035] 分析得出用户的语音信息的语言类型后，需要选择与语言类型对应的识别模式对语音信息进行识别，多种识别模式预先设置的。例如，分析得到用户的语音信息的语音类型为中文，则采用对应的中文识别模式对语音信息进行识别；分析得到用户的语音信息的语音类型为英文，则采用对应的英文识别模式对语音信息进行识别。这样采用对应的识别模式对不同语言类型的语音信息进行识别，可提高识别准确性。\n[0036] S400：将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息。\n[0037] 在数据库中预先存储了反馈语音信息，当语音信息经过识别后，将其与预先存储的反馈语音信息进行检索匹配，得到与用户的语音信息相对应的反馈语音信息。例如，数据库中预先存储了数字文化馆内肉眼3D电视机的功能介绍语音信息，用户询问的语音信息是需要知道肉眼3D电视机的相关信息，通过检索匹配，可以得到与用户的语音信息相对应的反馈语音信息，即肉眼3D电视机的功能介绍语音信息。\n[0038] S500：将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息。\n[0039] 同样的，在数据库中预先存储了反馈视频信息，当语音信息经过识别后，将其与预先存储的反馈视频信息进行检索匹配，得到与用户的语音信息相对应的反馈视频信息。例如，数据库中预先存储了数字文化馆内关于肉眼3D电视机的视频信息，用户询问的语音信息是需要知道肉眼3D电视机的相关信息，通过检索匹配，可以得到与用户的语音信息相对应的反馈视频信息，即肉眼3D电视机的视频信息。\n[0040] S600：判断匹配的反馈语音信息与匹配的反馈视频信息是否存在关联。\n[0041] 在数据库中预先存储了反馈语音信息与反馈视频信息的关联关系，例如，预先存储了3D电视机功能介绍语音信息和关于3D电视机的视频信息的关联，这种关联关系可以是多对多的，即多个语音信息可关联到多个视频信息，一个语音信息可关联多个视频信息，一个视频信息可关联到多个语音信息。\n[0042] 若匹配的反馈语音信息与匹配的反馈视频信息存在关联，则执行以下步骤：\n[0043] S700：将匹配的反馈语音信息与匹配的反馈视频信息同步输出。\n[0044] S800：显示反馈视频信息。\n[0045] 通过识别的语音信息匹配出的反馈语音信息和反馈视频信息存在关联，则将匹配的反馈语音信息与匹配的反馈视频信息同步输出，并显示反馈视频信息，使声音和画面更为协调，且使得用户不但能听到回应的信息，而且能观看视频。\n[0046] 在其中一个实施例中，若匹配的反馈语音信息与匹配的反馈视频信息不存在关联，则执行以下步骤：\n[0047] S610：统计关联失败的次数。\n[0048] S620：判断关联失败的次数是否小于等于预设值。\n[0049] 若关联失败的次数小于等于预设值；则执行以下步骤：\n[0050] 返回并继续执行将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息的步骤S400；直到匹配的反馈语音信息与匹配的反馈视频信息存在关联或者关联失败的次数大于预设值。\n[0051] 若匹配出的反馈语音信息与反馈视频信息不存在关联，则统计关联失败的次数，当关联失败的次数小于等于一个预设值时，再返回重新进行检索匹配，直到关联成功，再将此时匹配的反馈语音信息与反馈视频信息同步输出。\n[0052] 上述人机语音交互方法，通过采集用户的语音信息，对语音信息进行分析后得出语音的语言类型，对语音信息采用与语言类型对应的识别模式进行识别，将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息，再将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息；当得到的反馈语音信息与反馈视频信息存在关联时，则将这种信息同步输出。通过上述人机语音交互方法，可识别多种语言的语音，实现多种语言的交互，且同时实现视频与语音的同步回应，使客户体验感更强，且通过判断反馈语音信息与反馈视频信息的关联性，实现反馈语音信息与反馈视频信息的一致性，提高交互准确率，且声音和画面更加的协调与同步。\n[0053] 在其中一个实施例中，若关联失败的次数大于预设值，则执行以下步骤：\n[0054] 将匹配的反馈语音信息与匹配的反馈视频信息同步输出的步骤S700。\n[0055] 当关联失败的次数大于预设值，不再进行重新检索匹配，直接将此时匹配的反馈语音信息与反馈视频信息同步输出。\n[0056] 在每次进行采集用户的语音信息前，先将关联失败的次数清零。确保原先的关联失败次数对本次的识别过程产生影响。在其中一个实施例中，采集用户的语音信息的步骤S100之前还包括以下步骤：\n[0057] 判断当前的交互模式；\n[0058] 若当前的交互模式为人机语音交互模式，再执行采集用户的语音信息的步骤S100。\n[0059] 若当前的交互模式为普通播放模式，则执行以下步骤：\n[0060] 获取用户的切换指令；\n[0061] 根据切换指令，切换至人机语音交互模式。\n[0062] 当前的交互模式时普通播放模式时，是播放预先存储的视频语音信息，例如，数字文化馆的宣传片等视频。当用户需要进行交互时，需要切换到人机语音交互模式，才能对用户的语音信息进行采集。通过用户输入的切换指令，切换到人机语音交互模式。\n[0063] 在其中一个实施例中，反馈视频信息播放完毕后，自动切换至普通播放模式；或[0064] 获取用户的终止指令；\n[0065] 根据该终止指令，切换人机语音交互模式至普通播放模式。\n[0066] 根据用户的语音信息进行回应输出的反馈视频信息播放完毕后，会自动回复到普通播放模式；或者用户已经了解了相关内容，不需要再进行观看，用户可输入终止指令，切换人机语音交互模式至普通播放模式，或者另一个用户需要进行语音交互时，但当前还在播放上一个用户的反馈视频信息，也可输入终止指令，切换人机语音交互模式至普通播放模式。再通过输入切换指令切换至语音交互模式，进行下一次的语音信息采集。\n[0067] 在其中一个实施例中，将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息的步骤S400之前包括以下步骤：\n[0068] 对识别的语音信息进行关键语音段提取。\n[0069] 对关键语音段进行整合，得到整合后的语音信息。\n[0070] 用户输入的语音信息中可能包含许多非必要的信息，需要对整个语音信息进行关键信息提取，再将关键信息进行整合后得到精简的语音信息，为后续的匹配提高效率。\n[0071] 在其中一个实施例中，将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息的步骤S400具体为：\n[0072] 将整合后的语音信息与预先存储的反馈语音信息进行检索匹配。\n[0073] 将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息的步骤S500具体为：\n[0074] 将整合后的语音信息与预先存储的反馈视频信息进行检索匹配。\n[0075] 经过整合后，且是对关键信息的提取，不但不会丢失用户想要表达的信息，也使语音信息更加精简，很大程度上减少了检索匹配时间，提高匹配效率。\n[0076] 请参阅图2，本发明还公开了一种人机语音交互系统，包括：\n[0077] 采集模块100，用于采集用户的语音信息。\n[0078] 语音分析模块200，用于对语音信息进行分析，得出语音信息所对应的语言类型。\n[0079] 语音识别模块300，用于对语音信息采用与语言类型对应的识别模式进行识别。\n[0080] 第一匹配模块400，用于将识别的语音信息与预先存储的反馈语音信息进行检索匹配。\n[0081] 第二匹配模块500，用于将识别的语音信息与预先存储的反馈视频信息进行检索匹配。\n[0082] 关联判断模块600，用于判断匹配的反馈语音信息与匹配的反馈视频信息是否存在关联。\n[0083] 输出模块700，用于当关联判断模块判断匹配的反馈语音信息与匹配的反馈视频信息存在关联时，将匹配的反馈语音信息与匹配的反馈视频信息同步输出。\n[0084] 显示模块800，用于显示反馈视频信息。\n[0085] 上述人机语音交互系统，通过采集模块100采集用户的语音信息，语音分析模块\n200对语音信息进行分析后得到语音的语言类型，语音识别模块300采用与语言类型对应的识别模式进行识别，通过第一匹配模块400将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息，再通过第二匹配模块500将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息；当得到的上述两种信息存在关联时，则将两种信息同步输出。通过上述人机语音交互方法，可识别多种语言的语音，实现多种语言的交互，且同时实现视频与语音的同步回应，使客户体验感更强，且通过判断反馈语音信息与反馈视频信息的关联性，实现反馈语音信息与反馈视频信息的一致性，提高交互准确率，且声音和画面更加的协调与同步。\n[0086] 在其中一个实施例中，请参阅图3，上述人机语音交互系统还包括：\n[0087] 统计模块610，用于当关联判断模块判断匹配的反馈语音信息与匹配的反馈视频信息不存在关联时，统计关联失败的次数。\n[0088] 第一判断模块620，用于判断关联失败的次数是否小于等于预设值。\n[0089] 在其中一个实施例中，上述人机语音交互系统还包括：\n[0090] 第二判断模块，用于判断当前的交互模式是否为人机语音交互模式。\n[0091] 获取模块，用于获取用户的切换指令。\n[0092] 切换模块，用于根据切换指令，切换至人机语音交互模式。\n[0093] 若判断当前的交互模式为普通播放模式时，获取用户的切换指令，根据切换指令，切换至人机语音交互模式，再通过采集模块100进行语音采集。若判断当前的交互模式为人机语音交互模式时，则可通过采集模块100采集用户的语音信息。\n[0094] 在其中一个实施例中，获取模块，还用于获取用户的终止指令。\n[0095] 切换模块，还用于当反馈视频信息播放完毕后，自动切换至普通播放模式，且用于根据终止指令切换人机语音交互模式至普通播放模式。\n[0096] 在其中一个实施例中，上述人机语音交互系统还包括：\n[0097] 关键语音段提取模块，用于对识别的语音信息进行关键语音段提取。\n[0098] 整合模块，用于对关键语音段进行整合，得到整合后的语音信息。\n[0099] 第一匹配模块400，还用于将整合后的语音信息与预先存储的反馈语音信息进行检索匹配。\n[0100] 第二匹配模块500，还用于将整合后的语音信息与预先存储的反馈视频信息进行检索匹配。\n[0101] 以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN1501233A	2004-06-02	2003-11-12	使用家庭服务器的家庭机器人及其家庭网络系统无效专利	三星电子株式会社
2	CN103533021A	2014-01-22	2013-07-02	显示设备、交互式系统和响应信息提供方法无效专利	三星电子株式会社
3	CN103594086A	2014-02-19	2013-10-25	语音处理系统、装置及方法失效专利	鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司
4	WO2004090746A1	暂无	2004-04-02	SYSTEM AND METHOD FOR PERFORMING AUTOMATIC DUBBING ON AN AUDIO-VISUAL STREAM公开	KONINKLIJKE PHILIPS ELECTRONICS N.V.;NESVADBA; Jan; Alexis; Daniel;BREEBAART; Dirk; Jeroen;MCKINNEY; Martin; Franciscus
5	CN103558916A	2014-02-05	2013-11-07	人机交互系统、方法及其装置无效专利	百度在线网络技术(北京)有限公司
6	CN1851761A	2006-10-25	2006-03-21	一种自助导游方法及其系统无效专利	陈安平
7	CN101242510A	2008-08-13	2008-02-18	一种动态音视频菜单的播放方法与实现装置失效专利	华为技术有限公司
8	CN101119468A	2008-02-06	2007-09-19	视频交互方法、终端设备及其菜单选择装置有效专利	华为技术有限公司
9	CN103187051A	2013-07-03	2011-12-28	车载互动装置无效专利	上海博泰悦臻电子设备制造有限公司
10	CN103677261A	2014-03-26	2013-09-22	用户装置的情景感知服务提供方法和设备有效专利	三星电子株式会社
11	CN103219006A	2013-07-24	2012-01-18	人机互动系统和方法无效专利	北京德信互动网络技术有限公司
12	CN103903536A	2014-07-02	2014-04-10	一种多功能自助导游机无效专利	陕西科技大学
13	HK1128110A1	暂无	2009-06-19	METHOD AND APPARATUS FOR PROVIDING AUTOMATIC CUSTOMER SERVICES THROUGH MAN- COMPUTER INTERACTION未知	SHANGHAI HANSHI NETWORK TECHNOLOGY CO LTD

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供