一种语音互动系统以及其和人的语音互动方法

发明专利无效专利

申请号：
CN200910051031.9
IPC分类号：G10L15/08
申请日期：
2009-05-12
申请人：
上海锦芯电子科技有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种语音互动系统以及其和人的语音互动方法
申请号	CN200910051031.9	申请日期	2009-05-12
法律状态	权利终止	申报国家	中国
公开/公告日	2009-10-07	公开/公告号	CN101551998
优先权	暂无	优先权号	暂无
主分类号	G10L15/08 ? IPC结构图谱： G 物理 G0 仪器 G10 乐器；声学 G10L 语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码〔4〕 G10L15/00 语音识别（G10L 17/00优先）〔7，2013.01〕 G10L15/08 语音分类或检索〔7〕	IPC分类号	G;1;0;L;1;5;/;0;8查看分类表>
申请人	上海锦芯电子科技有限公司	申请人地址	上海市浦东张江高科技园区碧波路456号C405室变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	上海锦芯电子科技有限公司	当前权利人	上海锦芯电子科技有限公司
发明人	潘竞;程青云;马果
代理机构	上海唯源专利代理有限公司	代理人	曾耀先

摘要

本发明提供一种语音互动系统以及其和人的语音互动方法，该语音互动系统包括两个以上可以进行语音互动的装置；每个装置中设置有语音识别系统，该语音识别系统包括一语音输入模块，一数据库，一语音识别控制模块，一语音输出模块输出语音，所述的每个装置中的语音识别系统中的数据库中存储的数据之间存在逻辑相关性，从而可以实现该两个以上装置之间的语音互动。通过每一装置中的语音识别系统数据库中存储的具有逻辑相关性的数据，实现各个装置之间的语音互动；并且通过对数据库中的数据进行分组，在语音识别时，将输入的语音与相应的数据组进行比较从而可以提高语音识别速度，并且可以丰富语音识别的内容。

1.一种语音互动系统，包括两个以上可以进行语音互动的装置；每个装置中设置有语音识别系统，该语音识别系统包括一语音输入模块，用以将语音输入到语音识别系统中；一数据库，该数据库中存储待识别的内容以及根据所识别的内容所要做出响应的内容的语音数据；一语音识别控制模块，其用以将经所述的语音输入模块输入的语音数据与数据库中存储的语句进行识别，经该语音识别系统中包括的一语音输出模块输出语音，其特征在于：
所述的每个装置中的语音识别系统中的数据库中存储的数据之间存在逻辑相关性，从而可以实现该两个以上装置之间的语音互动。
2.如权利要求1所述的一种语音互动系统，其特征在于：所述的数据库中存储的数据根据所应用的场景分为若干个组，每一场景为一组数据，并且每一组数据具有一头节点，该头节点含有该数据组的场景信息；其中，每一装置中的语音识别系统中的数据库中的至少一组数据与其他装置中语音识别系统中的数据库中的至少一组数据存在逻辑相关性。
3.如权利要求2所述的一种语音互动系统，其特征在于：所述的每一组数据分成复数组分数据组，所述的每一分数据组中的内容与其它组的分数据组的内容组合成一个新的组，或者说场景。
4.如权利要求1-3任一所述的一种语音互动系统，其特征在于：所述的语音识别系统中，包括有一数据输入接口，用于将新的数据输入到数据库中。
5.一种人和语音互动系统进行语音互动的方法，其中语音互动系统包括两个以上可以进行语音互动的装置；每个装置中设置有语音识别系统，该语音识别系统包括一语音输入模块，用以将语音输入到语音识别系统中；一数据库，该数据库中存储待识别的内容以及根据所识别的内容所要做出响应的内容的语音数据；一语音识别控制模块，其用以将经所述的语音输入模块输入的语音数据与数据库中存储的语句进行识别，经该语音识别系统中包括的一语音输出模块输出语音，所述的每个装置中的语音识别系统中的数据库中存储的数据之间存在逻辑相关性，从而可以实现该两个以上装置之间的语音互动，该方法包括：a)首先由人讲话发出指令；
b)在该两个以上装置中的每一装置听到该指令后，每一装置通过其上的语音识别系统中的识别模块识别该指令，并通过识别模块于数据库中找到与该指令对应的场景的一组数据；
c)在相关装置找到对应场景的一组数据后，根据该指令由其语音输出端发出语音；
其特征在于：d)在与场景相关的装置中的第一个装置发出语音后，其他装置通过其语音识别系统接收该语音数据，并将该语音数据与其数据库中存储的数据进行比较识别；与场景相关的第二装置通过其上的语音输出端根据比较识别的结果，输出与第一装置发出的语音匹配的语音；
重复以上步骤，直至完成一个完整的场景对话。
6.如权利要求5所述的一种人和语音互动系统进行语音互动的方法，其特征在于：所述的数据库中存储的数据根据所应用的场景分为若干个组，每一场景为一组数据，并且每一组数据具有一头节点，该头节点含有该数据组的场景信息；其中，每一装置中的语音识别系统中的数据库中的至少一组数据与其他装置中语音识别系统中的数据库中的至少一组数据存在逻辑相关性。
7.如权利要求6所述的一种人和语音互动系统进行语音互动的方法，其特征在于：在步骤c)中还包括，步骤c1)在用户讲话发出指令后，每一装置中的语音识别系统通过其语音识别控制模块将该指令与每一组数据的头节点场景信息数据进行比较识别，然后找到对应的数据组；步骤c2)由第一装置通过其语音识别系统中的语音输出端输出与用户指令具有相关性的语音；
在步骤d)中还包括，步骤d1)在第一装置发出语音后，其他装置将该第一装置发出的语音数据通过其上的语音识别系统的语音输入模块装入语音识别系统的语音识别控制模块中，并将该第一装置发出的语音数据与相应场景的的数据组中的数据进行比较识别；
步骤d2)在第二装置找到与第一装置发出的语音相匹配的语音数据，通过其上的语音输出模块将语音输出。

一种语音互动系统以及其和人的语音互动方法 \n技术领域\n[0001] 本发明涉及语音识别领域，具有语音识别的装置，尤其涉及一种语音互动系统以及利用该语音互动系统在人和该语音互动系统之间的语音互动方法。 \n背景技术\n[0002] 与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。\n语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科，近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域，是2000年至2010年间电子、信息领域十大科技成果应用之一。这一成果在全国乃至全世界的家电、通信以及工业控制领域将起到相当大的产品换代作用。目前，世界上的许多公司都已经在电信、服务业和工业生产线上使用了语音识别技术，并创造出一批新颖的语音产品(如语音记事本、声控玩具、语音遥控器、家用服务器)。目前，在语音识别领域中，语音识别装置是使用者与装置之间一对一的语言交流，而且该语言交流的场景非常有限，语音识别装置可识别的条目也非常有限。针对以上缺点，有必要提出一种可以在多个装置间进行语言互动，并丰富对话场景的一组装置。发明内容\n[0003] 本发明要解决的技术问题在于提供一种语音互动系统以及其和人的语音互动方法，通过该语音互动系统中每一装置中的语音识别系统中的数据库中存储的具有逻辑相关性的数据，实现各个装置之间的语音互动；并且通过对数据库中的数据进行分组，在进行语音识别时，将输入的语音与相应的数据组进行比较从而可以提高语音识别速度，极大降低对系统内存的需求；同时在增加数据库中的数据时，不会降低语音识别的速度，也不需要改变随机存储器的容量，因而可以方便且自由地丰富语音识别的内容。 \n[0004] 为解决以上技术问题，本发明提供一种语音互动系统，包括两个以上可以进行语音互动的装置；每个装置中设置有语音识别系统，该语音识别系统包括一语音输入模块，用以将语音输入到语音识别系统中；一数据库，该数据库中存储待识别的内容以及根据所识别的内容所要做出响应的内容的语音数据；一语音识别控制模块，其用以将经所述的语音输入模块输入的语音数据与数据库中存储的语句进行识别，经该语音识别系统中包括的一语音输出模块输出语音，其特征在于：所述的每个装置中的语音识别系统中的数据库中存储的数据之间存在逻辑相关性，从而可以实现该两个以上装置之间的语音互动。 [0005] 本发明的进一步改进在于：所述的数据库中存储的数据根据所应用对话的场景分为若干个组，每一场景为一组数据，并且每一组数据具有一头节点，该头节点含有该数据组的场景信息；其中，每一装置中的语音识别系统中的数据库中的至少一组数据与其他装置中语音识别系统中的数据库中的至少一组数据存在逻辑相关性。 \n[0006] 本发明的进一步改进在于：所述的每一组数据分成复数组分数据；所述的每一分数据组中的内容与其它组的分数据组的内容组合成一个新的组，或者说场景。 [0007] 本发明的进一步改进在于：所述的语音识别系统中，包括有一数据输入接口，用于将新的数据输入到数据库中。 \n[0008] 另一方面，本发明提供一种人和语音互动系统进行语音互动的方法，其中语音互动系统包括两个以上可以进行语音互动的装置；每个装置中设置有语音识别系统，该语音识别系统包括一语音输入模块，用以将语音输入到语音识别系统中；一数据库，该数据库中存储待识别的内容以及根据所识别的内容所要做出响应的内容的语音数据；一语音识别控制模块，其用以将经所述的语音输入模块输入的语音数据与数据库中存储的语句进行识别，经该语音识别系统中包括的一语音输出模块输出语音，所述的每个装置中的语音识别系统中的数据库中存储的数据之间存在逻辑相关性，从而可以实现该两个以上装置之间的语音互动，该方法包括：a)首先由人讲话发出指令； \n[0009] b)在该两个以上装置中的每一装置听到该指令后，每一装置通过其上的语音识别系统中的语音识别控制模块识别该指令，并通过语音识别控制模块于数据库中找到与该指令对应的场景的一组数据； \n[0010] c)在相关装置找到对应场景的一组数据后，由第一装置根据该指令由其语音输出端发出语音； \n[0011] 其特征在于：d)在与场景相关的装置中的第一个装置发出语音后，其他装置通过其语音识别系统接收该语音数据，并将该语音数据与其数据库中存储的数据进行比较识别；与场景相关的第二装置通过其上的语音输出端根据比较识别的结果，输出与第一装置发出的语音匹配的语音； \n[0012] 重复以上步骤，直至完成一个完整的场景对话。 \n[0013] 本发明该方面的进一步改进在于：所述的数据库中存储的数据根据所应用的场景分为若干个组，每一场景为一组数据，并且每一组数据具有一头节点，该头节点含有该数据组的场景信息；其中，每一装置中的语音识别系统中的数据库中的至少一组数据与其他装置中语音识别系统中的数据库中的至少一组数据存在逻辑相关性。 \n[0014] 本发明该方面的进一步改进在于：在步骤c)中还包括，步骤c1)在用户讲话发出指令后，每一装置中的语音识别系统通过其语音识别控制模块将该指令与每一组数据的头节点场景信息数据进行比较识别，然后找到对应的数据组；步骤c2)由第一装置通过其语音识别系统中的语音输出端输出与用户指令具有相关性的语音； \n[0015] 在步骤d)中还包括，步骤d1)在第一装置发出语音后，其他装置将该第一装置发出的语音数据通过其上的语音识别系统的语音输入模块装入语音识别系统的语音识别控制模块中，并将该第一装置发出的语音数据与相应场景的的数据组中的数据进行比较识别； \n[0016] 步骤d2)在第二装置找到与第一装置发出的语音相匹配的语音数据，通过其上的语音输出模块将语音输出。 \n[0017] 通过以上所述的技术方案，本发明提供的一种语音互动系统以及其和人的语音互动方法，通过该语音互动系统中每一装置中的语音识别系统中的数据库中存储的具有逻辑相关性的数据，实现各个装置之间的语音互动；并且通过对数据库中的数据进行分组，在进行语音识别时，将输入的语音与相应的数据组进行比较从而可以提高语音识别速度，极大降低对系统内存的需求；同时在增加数据库中的数据时，也不需要改变随机存储器的容量，不会降低语音识别的速度，因而可以方便且自由地丰富语音识别的内容。附图说明\n[0018] 图1为本发明一较佳实施例的一种语音互动系统中每一装置内设置的语音识别系统模块图； \n[0019] 图2为本发明一较佳实施例的一种语音互动系统中每一装置的语音识别系统的识别流程图； \n[0020] 图3为本发明一较佳实施例的一种语音互动系统中每一装置内的语音识别系统的数据库的数据分组图；以及 \n[0021] 图4为本发明一较佳实施例的人和语音互动系统之间进行语言互动的流程图。具体实施方式\n[0022] 本发明涉及多个装置，但是每个装置的硬件结构与工作流程都是相同的。要实现本发明主要是3个方面的技术，一个是语音识别，二个是通过好的数据结构帮助场景的切换。三是以有效的方法提高装置之间识别的正确性，装置对使用者的语音判断的正确性。在该具体实施例中以两个装置为例，详细介绍了一种语音互动系统。下面参考附图对本发明做详细的说明。 \n[0023] 参考图1为本发明一较佳实施例的一种语音互动系统中每一装置内设置的语音识别系统模块图；该语言识别系统包括一语音识别控制模块10，分别与该语音识别控制模块10通信连接的一语音输入模块20、一数据库30、一数据输入接口40、一语音输出模块50以及一动作输出模块60；其中，语音识别控制模块10包括一处理器及运行在其上面的语音识别算法，另外，该语音识别控制模块10也可以是一个处理器加上单独的语音识别模块；\n语音输入模块20包括一麦克风话筒，用于将输入的语音放大输入，一模数(A/D)转换电路，其用来将输入的语音由模拟信号转换为数字信号，然后将该数字信号输入语音识别控制模块10；数据库30，其中存储的是待识别的内容以及根据所识别的内容所要做出响应的内容的语音数据；数据输入接口40，用于通过该接口40将新的数据输入到数据库30中，使得装置能够根据用户需要改变功能和内容；语音输出模块50包括数模(D/A)转换电路和喇叭，用于将待输出的数字语音数据转换为模拟语音数据后经喇叭放大输出。输出内容不仅限于语音，也可以是其它在识别到语音后作出的机械和电子动作。 \n[0024] 以上所述均为本发明中使用的每一装置中具有的语音识别系统的介绍。在该语音识别系统中，其数据库30中存储的数据为开放式数据，也就是说用户可以根据自己的需要改变其中的内容，即每次使用之前都可以增加、减少、改变识别条目，从而可以满足用户自己的需要；通过所述的数据输入接口40，用户可以将事先烧录好的数据输入到所述的语音识别控制模块10中，利用该语音识别控制模块10通过数据接口40将进来的数据放入到数据库30中。 \n[0025] 另外，参考图2，该数据库30中存储的数据根据各种不同的场景分为复数个数据组31、32、33...，每一组数据代表一个不同的场景；而且各个数据组31、32、33...，又可以分为复数个分数据组311、312、313...，321、322、323...，并且所述的每一分数据组中的内容也可以与其它组的分数据组的内容组合成一个新的组，或者说场景；其中，在将数据进行分组时，每一数据组具有一个头节点，该头节点含有该数据组的场景信息，包括场景名称，可能的所有识别项的地址等，并且根据具体的场景，每一数据组根据其分数据组的情况，又具有若干个分节点，该若干个分节点同样含有分数据组的信息，包括名称信息、可能的所有识别项的地址等；所述的语音识别控制模块10，在将经输入模块20输入该语音识别控制模块10中的语音数据与所述的数据库30中存储的数据进行比较识别时，并不是象传统的语音识别方法那样，将输入的语音数据与所有的数据库30中存储的数据进行比较，而是将输入的语音数据与各个数据组中的场景名称即头节点进行比较，从而选择对应的数据组，然后将对应场景的数据组与输入的语音数据进行比较；通过这样的一种数据比较的方式，可以加快语音识别的速度，并且可以增大数据库30中存储的数据也不会减慢语音识别的速度。另外，通过分组的方法，本发明还可以利用空出来的识别条目为一些容易混淆或者多语同义的识别节点增加副节点，以此来有效提高语音识别率和识别效果。比如在识别“您好”这一条的时候，增加副节点“你好”“您好啊”，在一装置根据讲话内容进行场景识别，对节点进行比较识别时同时也对副节点进行比较识别，从而可以提高识别效率和识别效果；这样使得装置能够更好地配合用户的讲话习惯。 \n[0026] 参考图3为本发明一较佳实施例的每一装置中的语音识别系统的语音识别流程图；201：首先用户讲话发出指令或其他装置讲话发出语音，然后该讲话内容的语音信号通过输入模块20将该语音模拟信号转换为语音数字信号经放大后输入到语音识别控制模块\n10；202：根据讲话内容确定要识别的场景内容；203：语音识别控制模块20将输入的数字语音信号内容加入识别列表；204：语音识别控制模块20将加入识别列表的内容与用户输入的语音数据或其他装置输入的语音数据进行比较识别；205：识别成功，输出识别结果并根据结果确定新的场景；如果识别不成功，则返回步骤204重新进行比较识别。 [0027] 参考图4为本发明一较佳实施例的使用者与两装置进行语音互动的流程图。当利用两可以进行语音互动的装置进行语音互动时，包括步骤401：由使用者讲一句话发出指令启动两语音互动装置；步骤402、402′：第一装置和第二装置通过其上的语音输入模块\n20接收由使用者所讲的话，并通过其上的语音识别控制模块10对使用者所讲的话进行语音识别，通过该语音识别控制模块10将使用者所讲的话与数据库30中存储的数据组的头节点进行比较；步骤403、403′：通过步骤402中的语音识别，第一装置找到与用户所讲的~\n话对应场景的数据组N，第二装置找到与用户所讲的话对应场景的数据组N ；步骤404：在第一装置找到相应的场景数据组后，第一装置讲出场景的第一句话，通过语音输出模块50将该第一句话输出；404′：第二装置找到相应的场景数据组后，第二装置将该第一装置讲出的第一句话设为识别内容，同时将其他场景的第一句话写入识别列表，经通过语音识别控制模块10对该第一句话进行识别；步骤405′：如果是对应的场景，则第二装置讲出第二句话，如果不是对应的场景，则根据识别列表中的其他场景的第一句话更换场景，找到对应的场景后，讲出第二句话；步骤405：第一装置通过语音输入模块20将第二装置讲出的第二句话装入语音识别控制模块10中的语音识别列表，并识别该第二句话，之后讲出第三句话；重复以上的步骤直至完成该场景对话。 \n[0028] 以上所描述的装置之间的语音互动只是两个装置以及与人之间的语音互动，在本发明中，当涉及多于两个装置之间的语音互动时，其工作方式与两个装置之间的工作方式相同，首先由用户讲话发出指令，每一装置找到对应的场景，之后每一装置将其他装置讲话的内容作为识别的内容，并根据识别结果讲出与其他装置讲话内容相符的讲话内容。 [0029] 可以理解的是，上述实施例的详细说明是为了阐述和解释本发明的原理而不是对本发明的保护范围的限定。在不脱离本发明的主旨的前提下，本领域的一般技术人员通过对上述技术方案的所教导的原理的理解可以在这些实施例基础上做出修改，变化和改动。\n因此本发明的保护范围由所附的权利要求以及其等同来限定。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN101017428A	2007-08-15	2006-12-22	一种嵌入式语音交互装置及交互方法无效专利	广东电子工业研究院有限公司
2	CN1734445A	2006-02-15	2005-07-26	用于对话的方法、装置和程序及其中存储程序的存储介质失效专利	索尼株式会社
3	CN1591569A	2005-03-09	2004-07-02	语音通信系统和方法、及机器人装置失效专利	索尼株式会社
4	CN101075435A	2007-11-21	2007-04-19	一种智能聊天系统及其实现方法有效专利	深圳先进技术研究院

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供