1.一种用于激活语音对话和进行语音对话的其中至少一种的装置,应用在车辆中,所述装置包括:
-至少一个用于语音信号的输入端;
-语音识别单元,用于确定包含在所述语音信号中的一个或多个的指令;
讲话者识别单元配置用于根据所述语音信号和至少一个存储的讲话者模型确定当前的讲话者;
决策单元包括:
耦合至所述语音识别单元的语音识别单元连接,该语音识别单元配置为进行基于一个或多个指令的结果行为,和
耦合至所述讲话者识别单元的讲话者识别单元连接,
所述决策单元配置为使得,至少在至少一个指令的情况下,结果行为的激活取决于该至少一个指令是否已经被识别为来自与讲话者模型关联的讲话者;以及
回波补偿单元,接收多声道语音信号,并且基于相对于至少一个输入的多声道信号的分量之间的渡越时间差,去除来自非授权讲话者的一个分量,
其中所述讲话者识别单元配置为通过从所述语音信号中提取讲话者特征并与存储的取决于讲话者的特征比较,并且包括另外的单元,所述另外的单元设计用于讲话者适应,不断确定的细化的取决于讲话者的特征以及用于把所述细化的取决于讲话者的特征存储在存储的所述讲话者模型中,
所述讲话者识别单元配置为,在多个讲话者正在同时讲话的情况下,不把所述语音信号归属于讲话者。
2.根据权利要求1所述的装置,其中,所述决策单元设计用于把所述讲话者识别单元和所述语音识别单元的结果与存储在讲话者模型中的、针对讲话者的信息相比较和相联系,其中如果所述当前的讲话者未被授权执行所述结果行为,则抑制至少一个取决于指令的结果行为的执行。
3.根据权利要求1所述的装置,其中,所述决策单元这样设计,即不取决于对应于所述讲话者模型的所述讲话者的所述识别来执行一些指令。
4.根据权利要求1所述的装置,其中,所述装置设计为用于进行语音对话和激活语音对话的组合装置。
5.根据权利要求1所述的装置,其中,语音分析单元包括用于识别单词的单词识别单元以及后续的、用于识别构成指令的结构的结构分析单元。
6.根据权利要求1所述的装置,其中,所述回波补偿单元紧邻或非紧邻地前置于所述讲话者识别单元和所述语音识别单元,其中所述回波补偿单元具有一个或多个用于包括单声道-、立体声-和/或多声道-扬声器信号的扬声器信号的输入端,以及所述回波补偿单元设计用于补偿所述扬声器信号对所述语音信号的影响。
7.根据权利要求6所述的装置,其中,所述回波补偿单元具有用于补偿其他人的语音分量的子单元,所述子单元有利地与至少一个用于连接附加的麦克风的输入端连接。
8.根据权利要求1所述的装置,其中,噪声抑制单元紧邻或非紧邻地前置于所述讲话者识别单元和所述语音识别单元的其中至少一个。
9.根据权利要求1所述的装置,其中,所述讲话者识别单元和所述语音识别单元中的其中至少一个设计用于使通过所述讲话者识别单元识别的所述讲话者向所述决策单元的输出与由所述语音识别单元识别的指令的输出同步。
10.根据权利要求1所述的装置,其中,并联于所述讲话者识别单元和所述语音识别单元布置了用于根据所述语音信号检测驾驶员的状态的驾驶员状态检测单元。
11.根据权利要求1所述的装置,其中,所述语音识别单元包括附加单元,所述附加单元设计用于检测所述讲话者的所述讲话者特征的取决于时间的变化作为属性并将所述变化存储在对应于所述讲话者存储的所述讲话者模型中。
12.根据权利要求1所述的装置,其中,所述装置具有至少一个存储装置,所述存储装置设计用于存储使用者模型和所述讲话者模型。
13.根据权利要求12所述的装置,其中,所述至少一个存储装置具有至少一个接口配置用于输出和/或输入存储的所述讲话者模型和所述使用者模型中的至少一个的输入端和/或输出端,使得存储的所述使用者模型和所述讲话者模型中的其中至少一个可转移至另一个车辆或从另一个车辆转移。
14.根据权利要求1所述的装置,其中,所述装置这样设计,即在所述结果行为的执行期间也激活所述装置以用于分析所述语音信号,所述装置这样设计,即在识别来自授权的所述讲话者的指令时,至少部分地中断由在前的指令触发的所述结果行为的所述执行。
15.一种用于激活语音对话和/或进行语音对话的系统,所述系统包括:
-至少一个用于语音信号的输入端;
-语音识别单元,用于确定包含在所述语音信号中的一个或多个的指令;
讲话者识别单元配置用于根据所述语音信号和至少一个存储的讲话者模型确定当前的讲话者;
决策单元包括:
耦合至所述语音识别单元的语音识别单元连接,该语音识别单元配置为进行基于一个或多个指令的结果行为,和
耦合至所述讲话者识别单元的讲话者识别单元连接,
所述决策单元配置为使得,至少在至少一个指令的情况下,结果行为的激活取决于该至少一个指令是否已经被识别为来自与讲话者模型关联的讲话者;以及
回波补偿单元,接收多声道语音信号,并且基于相对于至少一个输入的多声道信号的分量之间的渡越时间差,去除来自非授权讲话者的一个分量,
其中所述讲话者识别单元配置为通过从所述语音信号中提取讲话者特征并与存储的取决于讲话者的特征比较,并且包括另外的单元,所述另外的单元设计用于讲话者适应,不断确定的细化的取决于讲话者的特征以及用于把所述细化的取决于讲话者的特征存储在存储的所述讲话者模型中,
所述讲话者识别单元配置为,在多个讲话者正在同时讲话的情况下,不把所述语音信号归属于讲话者。
16.根据权利要求15所述的系统,其中,所述系统包括这样布置的多个麦克风或至少一个麦克风阵列,即通过所述麦克风的方向特性给定的最佳接收的区域覆盖了在授权的讲话者的推测的停留区域中的至少一些所述麦克风。
17.根据权利要求16所述的系统,其中,所述麦克风设计为自动地对准通过所述麦克风检测的、所述讲话者的位置。
18.一种用于激活语音对话和/或进行语音对话的方法,包括以下步骤:
-接收语音信号;
-从所述语音信号中识别指令和指令结构中的其中至少一个;
-根据所述语音信号和至少一个存储的讲话者模型识别讲话者;
-随后取决于识别的所述指令和识别的所述讲话者执行结果行为,其中所述语音信号为多声道语音信号;
基于相关于至少一个麦克风的多声道信号的分量之间的渡越时间差,去除来自非授权讲话者的所有分量,
其中识别授权的讲话者包括从所述语音信号中提取讲话者特征并且与存储在讲话者模型中的单个讲话者特征相比较并且
其中讲话者适应进行为连续地简化并补充存储在所述讲话者模型中的所述单个讲话者特征,
其中讲话者识别,在多个讲话者同时讲话的情况下,不把所述语音信号归属于讲话者。
19.根据权利要求18所述的方法,其中,识别所述指令和所述指令结构中的至少一个的步骤还包括:
-识别包含在所述语音信号中的单词,
-识别由所述单词构成的所述指令结构。
20.根据权利要求18所述的方法,其中,在识别所述指令之前和在识别所述讲话者之前中的其中至少一个这样进行回波补偿,即从所述语音信号中去除由于在乘客车厢中的反射产生的扬声器信号的叠加,其方法是计算由于所述扬声器信号产生的所述叠加并从所述语音信号中减去所述叠加。
21.根据权利要求20所述的方法,其中,确定所述语音信号的由其他人引起的语音信号分量,并至少部分地从所述语音信号中去除。
22.根据权利要求21中所述的方法,其中,所述语音信号设计为多声道语音信号。
23.根据权利要求22所述的方法,其中,通过所述多声道语音信号的不同声道的不同时间推移的信号的在时间上的联系,提取并分离来自授权的所述讲话者的地点之一的、所述语音信号的所述分量。
24.根据权利要求18所述的方法,其中,所述结果行为的所述执行与识别的所述指令之间的相关性在于,当没有识别所属的所述讲话者时和所属的所述讲话者之一没有授权对所述结果行为进行指示时,抑制所述结果行为的所述执行。
25.根据权利要求18所述的方法,其中,在识别所述指令之一或所述讲话者之一之前进行噪声抑制。
26.根据权利要求18所述的方法,其中,检测所述讲话者特征的取决于时间的变化作为属性并将所述变化存储在所述讲话者模型中。
27.根据权利要求26所述的方法,其中,为了识别指令,包括从所述语音信号中提取语音者特征并把所述讲话者特征与存储在所述讲话者模型中的单个的语音特征比较。
28.根据权利要求27所述的方法,其中,进行讲话者适应,通过所述讲话者适应,持续地细化和补充了存储在所述讲话者模型中的所述单个的语音者特征。
29.根据权利要求28所述的方法,其中,检测所述语音特征的取决于时间的变化作为属性并存储在所述讲话者模型中。
30.根据权利要求29所述的方法,其中,根据所述语音信号检测驾驶员状态。
31.根据权利要求18所述的方法,其中,可通过输入其它语音信号来中断所述结果行为的后续的执行,所述其它语音信号包含授权的所述讲话者的其它指令。
32.根据权利要求18所述的方法,其中,根据所述语音信号确定授权的所述讲话者的地点,以及不取决于包含于所述语音信号中的所述指令而产生用于使至少一个麦克风对准授权的所述讲话者的所述地点的控制信号。
33.根据权利要求32所述的方法,其中,所述结果行为的所述执行包括输出语音对话信号。
34.根据权利要求33所述的方法,其中,所述结果行为的所述执行包括所述控制信号的信号输出,所述控制信号用于控制集成于车辆中的装置的功能。
用于激活和/或进行语音对话的装置、系统和方法\n技术领域\n[0001] 本发明涉及用于激活语音对话和/或进行语音对话的一种装置、一种系统和一种方法。\n背景技术\n[0002] 语音对话系统用于电子仪器、例如车辆电脑,而不需要对触觉的操作运行进行控制。根据现有技术已知,用于进行语音对话或用于激活语音对话的装置根据指令搜索通过噪声抑制或回波补偿而变得清晰的语音信号。在用于激活语音对话的装置中,根据确定的关键词进行搜索,该关键词用于激活语音对话。在用于进行语音对话的装置中,检查该语音信号是否包含作为指令而存储在集成于语音对话系统中的指令数据库中的单词。如果识别出指令,那么执行属于该命令的行为。\n[0003] 尤其在干扰噪声作用于系统的应用条件下,这样的用于进行语音对话或用于激活语音对话的装置是不可靠的。这尤其在应用于轿车中时是不利的,因为在干扰影响下、例如乘客的谈话,根据现有技术的装置常常由于错误识别的命令而执行不期望的功能。\n发明内容\n[0004] 因此本发明的目的在于,特别抗干扰地进行语音对话和/或激活语音对话。\n[0005] 该目的通过一种用于激活语音对话和进行语音对话的其中至少一种的装置来实现。应用在车辆中,该装置包括:\n[0006] -至少一个用于语音信号的输入端;\n[0007] -语音识别单元,用于确定包含在所述语音信号中的一个或多个的指令;\n[0008] 讲话者识别单元配置用于根据所述语音信号和至少一个存储的讲话者模型确定当前的讲话者;\n[0009] 决策单元包括:\n[0010] 耦合至所述语音识别单元的语音识别单元连接,该语音识别单元配置为进行基于一个或多个指令的结果行为,和\n[0011] 耦合至所述讲话者识别单元的讲话者识别单元连接,\n[0012] 所述决策单元配置为使得,至少在至少一个指令的情况下,结果行为的激活取决于该至少一个指令是否已经被识别为来自与讲话者模型关联的讲话者;以及[0013] 回波补偿单元,接收多声道语音信号,并且基于相对于至少一个输入的多声道信号的分量之间的渡越时间差,去除来自非授权讲话者的一个分量,\n[0014] 其中所述讲话者识别单元配置为通过从所述语音信号中提取讲话者特征并与存储的取决于讲话者的特征比较,并且包括另外的单元,所述另外的单元设计用于讲话者适应,不断确定的细化的取决于讲话者的特征以及用于把所述细化的取决于讲话者的特征存储在存储的所述讲话者模型中,\n[0015] 所述讲话者识别单元配置为,在多个讲话者正在同时讲话的情况下,不把所述语音信号归属于讲话者。\n[0016] 该目的还通过一种用于激活语音对话和/或进行语音对话的方法来实现,包括以下步骤:\n[0017] -接收语音信号;\n[0018] -从所述语音信号中识别指令和指令结构中的其中至少一个;\n[0019] -根据所述语音信号和至少一个存储的讲话者模型识别讲话者;\n[0020] -随后取决于识别的所述指令和识别的所述讲话者执行结果行为,其中所述语音信号为多声道语音信号;\n[0021] 基于相关于至少一个麦克风的多声道信号的分量之间的渡越时间差,去除来自非授权讲话者的所有分量,\n[0022] 其中识别授权的讲话者包括从所述语音信号中提取讲话者特征并且与存储在讲话者模型中的单个讲话者特征相比较并且\n[0023] 其中讲话者适应进行为连续地简化并补充存储在所述讲话者模型中的所述单个讲话者特征,\n[0024] 其中讲话者识别,在多个讲话者同时讲话的情况下,不把所述语音信号归属于讲话者。\n[0025] 指令分析的可靠性通过如下方式显著提高,即该装置不仅包括用于确定语音信号中是否包含指令的语音识别单元和用于取决于在语音信号中识别的指令而产生输出信号的决策单元,还包括用于根据语音信号和至少一个存储的讲话者模型而识别讲话者的讲话者识别单元,其中这样设计决策单元,即取决于指令的结果行为的执行取决于,至少部分产生语音信号的讲话者是否被讲话者识别单元识别为相应于存储的讲话者模型的讲话者。\n[0026] 语音识别单元可理解为一个设计用于鉴定来自语音信号的指令和/或指令结构的单元。也就是说,根据语音模型和根据存储的指令,分析语言信号中是否包含/包含哪些指令或指令结构。如果包含指令,那么它被识别为相应的有效指令。\n[0027] 在这种情况下,指令不一定只是单个的词。在此更确切地说意味着语音输入的每种形式。例如,概念“指令”也意味着数列/号码序列、句子成分和/或完整的句子。\n[0028] 讲话者识别单元可理解为可以特别设计用于从语音信号中提取讲话者特征并用于把该讲话者特征与之前存储在至少一个讲话者模型中的、取决于讲话者的特征相比较的单元,其中根据比较确定当前的讲话者和对应于讲话者模型的讲话者一致或不一致。有利地这样设计讲话者识别单元,即当语音信号完全来自对应于讲话者模型的讲话者时,也就是说多人同时讲话而信号有利地不对应于任何讲话者时,才确定一致。\n[0029] 待执行的结果行为可以是不同类型的结果行为。\n[0030] 在用于激活语音对话的装置中,结果行为例如可以是双重事件的输出,这作为信息仅包括是否应该进行语言对话的激活的决定。可替换地,该事件可以包括关于引起激活的讲话者的信息,从而产生取决于讲话者的激活信号。\n[0031] 在用于进行语音对话的装置中,作为结果行为的语音输出尤其重要。可以利用它将信息、例如其它选项通知给讲话者。例如如果讲话者要调用关于位于附近的餐馆的信息并使用了与之相应的指令,那么语音对话系统可以要求讲话者从多个可能的餐馆类型中作出选择。\n[0032] 其它的可能的结果行为是控制车辆功能的控制事件。例如可以向用于座位加热的控制系统发送用于提高加热温度的事件。此外,可以输出用于调用位于车辆中的其它系统的信息的控制信号。此外结果行为还可能由控制事件和语音输出组成。本领域技术人员由根据现有技术的用于进行语音对话的装置还已知了其它的可能的输出信号。\n[0033] 此外,本发明还涉及一种方法:其中首先接收语音信号;其中随后识别存在于语音信号中的指令或指令结构;并且其中根据语音信号和至少一个讲话者模型识别讲话者;\n其中在识别指令和讲话者之后,取决于讲话者和指令的识别的结果执行结果行为。\n[0034] 这样有利地设计决策单元,即当由讲话者识别单元将包含指令的语音信号鉴定为来自授权的讲话者时,那么仅仅执行取决于指令的结果行为。也就是说将讲话者识别单元和语音识别单元的结果与存储在使用者模型中的数据比较,并检查讲话者是否被授权。\n[0035] 根据实施例,可以反馈缺乏授权的情况。这种反馈的优点在于,讲话者可以在未识别或识别之间区分作为未充分授权的讲话者。\n[0036] 重要的是,通过由无资格的讲话者输入的指令不会触发对应于指令的待执行的结果行为,也就是说,来自无资格的讲话者的指令不会导致结果行为或导致与授权的讲话者不同的结果行为。\n[0037] 在一个有利的实施例中,可以不取决于讲话者执行特定的指令。由此例如可以控制不对驾驶员造成妨碍的车辆功能。在这里对于用于进行语音对话的装置来说,对副驾驶座和/或后排座的加热可以作为一个实例,该加热也可以由其他的作为授权的讲话者的人员进行调节。然而有利地,在输入这些指令时不进行语音对话,也就是说,语音对话系统对未识别的讲话者的指令反应为没有语音输出的纯语音控制,以用于控制毫无疑问的车辆功能。在用于激活语音对话的装置中也可以建立不取决于讲话者的指令。因此例如可以这样实现激活,即可接收通过指令分析单元产生的激活信号,可以期望的是具有缩小的功能范围的乘客访问(Passagierzugriff)。例如在这种乘客访问中,进行作为纯语音控制的激活,其丝毫没有输出声学的反馈且仅设计用于执行毫无疑问的车辆功能的控制指令。\n[0038] 在另一有利的实施例中,装置设计为用于激活-和进行语音对话的组合装置。也就是说,在未激活状态中,该装置用于激活语音对话。如果该装置通过关键词由授权的讲话者激活,那么其作为用于进行语音对话的装置工作。\n[0039] 对这样作为组合系统的设计来说尤其可能的是,定义多个不同的关键词。该装置可以通过第一关键词由授权的讲话者这样激活,即该装置仅执行授权的讲话者的随后的其它指令。此外,可以构造第二关键词,这使该装置进入一种状态,在该状态中装置执行任意讲话者的指令。然而有利地,授权的讲话者的指令具有更高的优先权,也就是说,授权的讲话者的指令不会被其他人的随后的指令打断,然而甚至可以中断执行其他人的指令。\n[0040] 在一个有利的实施例中,语音识别单元具有单词识别单元和后续的结构识别单元。单词识别单元设计用于这样识别来自语音信号的单词,即从语音信号中提取语音特征并与储存的语音特征比较。因此结构识别单元通过单词识别单元识别这样检查单词序列,即该单词序列是否包括包含指令的结构。\n[0041] 该装置有利地具有前置于讲话者识别单元和/或指令识别单元的回波补偿单元。\n该回波补偿单元具有至少一个用于单声道-、立体声-和/或多声道-扬声器信号的输入端。由此可以补偿扬声器信号对语音信号的影响,其方法是计算或估算通过扬声器信号产生的分信号并将其从语音信号中减去。\n[0042] 此外,回波补偿单元可以包括用于补偿由其他人产生的语音分量的子单元。该子单元有利地具有至少一个附加的麦克风输入端。该子单元可以设计用于补偿通过与附加的麦克风输入端相连的其它麦克风接收的、其他人的语音分量的影响。也就是说,该子单元设计用于根据其它麦克风的输出信号,估算或计算其他讲话者的语音分量对语音信号的影响并通过从语音信号中减去来补偿该影响。可替换地,或除了使用其它麦克风以补偿其他讲话者的语音分量之外,为了该目的该子单元还可以设计用于过滤与声音基础频率同步的语音信号。\n[0043] 可替换地或附加地在下面的情况下,即用于语音信号的输入端设计用于多声道-语音信号,或存在多个麦克风输入端,该子单元则可以设计用于根据之前确定的、估算的或给定的、讲话者的地点来实现不同的语音声道的在时间上的联系作用。也就是说,如果使用了多个麦克风,那么从语音信号中减去所有不是来自预期地点的讲话者的语音信号分量。\n[0044] 回波补偿单元设计用于将相应的变得清晰的语音信号传送至讲话者识别单元和/或语音识别单元。\n[0045] 此外,该装置有利地包括尤其可以布置在回波补偿单元之后的噪声抑制单元。\n[0046] 噪声抑制单元设计用于抑制不变的和也有利的是似稳的(也就是说在时间上缓慢变化的)噪声分量。\n[0047] 有利地,噪声抑制单元尤其这样设计用于通过频率特性适应来参数化地匹配语音信号的噪声行为特性,即语音信号的噪声属性匹配于集成在语音识别单元中的语音模型的噪声属性。\n[0048] 通过噪声属性的这样的匹配确保了不会通过噪声抑制而造成经过噪声抑制处理的语音信号与语音识别单元的语音模型的不兼容性。\n[0049] 有利地,讲话者识别单元和/或语音识别单元设计用于使被识别的讲话者向决策单元的输出与通过语音识别单元的被识别的指令的输出同步。通过该同步确保了,结果行为的激活可靠地取决于,讲话者和指令是否在语音信号的相同部段中被识别。\n[0050] 有利地,在讲话者识别单元中集成了另外的单元,该单元设计用于讲话者适应(Sprecheradaption),也就是说用于不断确定细化的取决于讲话者的特征以及用于把该细化的取决于讲话者的特征存储在对应于当前的讲话者的讲话者模型中。有利地,通过该另外的单元可以把取决于时间的变化作为属性存储在讲话者模型中。\n[0051] 尤其有利地,语音识别单元也包括用于讲话者适应的附加单元。由此可以通过语音识别单元与当前的讲话者的匹配而显著地提高指令识别的可靠性。\n[0052] 有利地,并联于讲话者识别单元和语音识别单元布置了用于根据语音信号检测驾驶员的状态的驾驶员状态检测单元,该驾驶员状态检测单元设计用于根据语音信号来检测驾驶员的状态并发送至决策单元,其中驾驶员状态的检测有利地展示了至少关于行驶能力(例如疲劳、吸毒和/或超载)或情绪状况(例如激动、愤怒、精力集中、放松和/或平静)的信息。\n[0053] 有利地,该装置具有至少一个用于存储使用者模型和/或至少一个讲话者模型的存储装置。该存储装置可设计为中央存储单元,其中讲话者识别单元、语音识别单元和决策单元与该中央存储单元连接。可替换地,该装置具有多个存储装置,其中至少一个存储装置分别集成在讲话者识别单元、语音识别单元和/或决策单元中。\n[0054] 有利地,至少一个存储装置具有至少一个用于输入或输出数据的端口,从而能够传输讲话者和/或使用者模型。例如由于购买新车而更换车辆时,这是尤其有利的,这是因为因此可以避免完全重新设定讲话者模型和使用者模型。\n[0055] 在一个特别有利的实施例中,该装置这样设计,即如果通过决策单元来执行结果行为,则也考虑输入的语音信号,以及通过包含在语音信号中的指令至少部分地中断由在前的指令触发的结果行为的执行。部分的中断可以在于,即在继续执行通过在前的指令触发的控制事件期间中断语音输出。因此,讲话者不必完全等待语音输出。由此可以明显加速语音对话,尤其是当已经熟悉该装置的讲话者已经知道了通过语音输出通知的选项时。此外有利的是,当使用者期望的选项已被读出后,可以中断列举可能的选项。\n[0056] 此外有利的是,用于激活语音对话和/或进行语音对话的系统具有至少一个扬声器、至少一个麦克风以及根据本发明的用于激活语音对话或进行语音对话的装置。有利地,至少一个麦克风具有自动的放大适配性(Verstaerkungsanpassung)。\n[0057] 该系统可以用于通过至少一个扬声器输出单声道-、立体声-或多声道-音频信号,以及用于通过至少一个麦克风采集单声道-、立体声-或多声道-语音信号。此外取代或除了单个麦克风之外,还可以包括麦克风阵列。\n[0058] 如果存在多个麦克风,那么这些麦克风有利地这样布置或可这样布置,即麦克风的最大灵敏性的区域相应于其方向特性在授权的讲话者的推测的或确定的停留区域中进行覆盖,以及用于处理麦克风信号的后续单元通过对信号的时间延迟的合计以及其它信号处理方法分离出授权的讲话者的信号,每个授权的讲话者的信号在其声道中提高,并且所有其它讲话者的信号和干扰信号减小(所谓的“beam forming(波束成形)”)。\n[0059] 有利地,该系统包括用于使麦克风自动对准授权的讲话者的跟踪装置。该跟踪装置可以设计用于分析通过麦克风接收的信号的渡越时间延迟从而获得授权的讲话者的位置,并且然后使麦克风对准该位置。\n附图说明\n[0060] 下面根据图1至4说明本发明的实施例。附图示出:\n[0061] 图1示出根据本发明的用于激活语音对话的系统的第一实施例;\n[0062] 图2示出根据本发明的用于进行语音对话的系统的第一实施例;\n[0063] 图3示出根据本发明的用于激活语音对话的系统的第二实施例;\n[0064] 图4示出根据本发明的用于进行语音对话的系统的第二实施例。\n具体实施方式\n[0065] 图1示出用于激活语音对话的系统1。该系统分析通过麦克风2接收的语音信号\n8。该语音信号包括:通过使用者进行的声学的语音输入3以及多个干扰信号,即车辆内部空间4中的其他人的语音分量、车辆周围环境5的噪声、通过扬声器6的来自无线电收发设备28的音乐和/或来自语音对话输出27的语音输出信号、以及语音输入和干扰信号的声波反射7。语音信号8被输入到回波补偿单元9中。回波补偿单元9具有用于扬声器信号\n10的附加的输入端。回波补偿单元利用扬声器信号10计算干扰信号6对语音信号8的影响。此外,回波补偿单元计算声波反射7的通过干扰信号引起的分量以及其对语音信号8的影响。由回波补偿单元补偿了因此是已知的影响,并且从回波补偿单元9发出经回波补偿的语音信号11。\n[0066] 经回波补偿的语音信号11在输入端方面输入噪声抑制单元12中并经历噪声补偿。由此减去信号11的静态背景。此外,补偿似稳的、也就是说缓慢变化的噪声分量。此外,通过频率特性适应来参数化地匹配信号11的噪声行为特性。由此,使信号11的噪声属性匹配关键词识别单元的语音模型的噪声属性。\n[0067] 这样地经噪声补偿的信号15经过第一输出端13和第二输出端16输出。\n[0068] 第一输出端13与讲话者识别单元14连接。讲话者识别单元14设计用于从信号\n15中提取讲话者特征。该讲话者识别单元把提取的讲话者特征依次与在存储装置17里的讲话者模型中存储的特征这样比较,即分别依次调出讲话者模型并把存储在其中的特征与提取的特征比较。对此重复操作,直到把提取的特征与所有存储的讲话者模型比较。这样确定,提取的特征是否与讲话者模型之一的特征一致。\n[0069] 如果确定了这种一致,那么讲话者识别单元通过输出端23把关于识别的讲话者的信息传输至语音对话激活单元29。\n[0070] 此外,另一个用于讲话者适应的单元20集成在讲话者识别单元14中,该另外的单元设计用于持续细化取决于讲话者的特征。该另外的单元将细化的、取决于讲话者的特征存储在属于讲话者的、存储在存储装置17上的讲话者模型中。\n[0071] 该另外的单元20设计用于,确定讲话者内容特征的取决于时间的变化并将之作为属性存储在存储装置17上的讲话者模型中。\n[0072] 关键词识别单元24与讲话者识别单元14并联地布置。该关键词识别单元设计用于识别,语音信号中是否包含或包含哪些有效的指令或有效的语音指令形式。通过输出端\n25输出相应确定的指令。\n[0073] 此外,关键词识别单元包含用于讲话者适应的附加单元18。附加单元设计用于对当前的授权的讲话者的关键词识别进行优化。为此,附加单元从语音信号中提取语音特征,并将其与存储在讲话者模型中的单个的语音特征相比较。取决于比较结果对单个的语音特征进行细化和/或补充。由此可以将语音特征的在时间上的变化作为属性进行检测,并存储在讲话者模型中。在识别关键词时会考虑这样确定/补充的单个的语音特征。因为这样用于关键词识别的语音模型可以匹配当前的讲话者,所以可以显著提高关键词识别的可靠性。\n[0074] 在讲话者识别单元14和关键词识别单元24之后布置了语音对话激活单元29。当由关键词识别单元24识别了相应的指令并且同时由讲话者识别单元识别了有权激活的讲话者时,语音对话激活单元设计用于输出一个或多个事件26。\n[0075] 语音对话输出27可激活事件中任一个,并且未示出的语音对话系统可激活另一事件。\n[0076] 图2示出用于进行语音对话的系统30的实施例。该系统取代关键词识别单元24而具有更复杂的语音识别单元31,以及取代语音对话激活单元29而具有语音对话单元32。\n[0077] 语音识别单元31与第一实施例中的关键词识别单元24的区别主要在于,不仅将一些关键词、而且也将多个不同的指令识别为有效,以及不仅识别单词自身、而且也识别了由单词组成的结构。为此,语音识别单元31划分为用于识别单词的单词识别单元19以及用于识别通过单词组成的结构的结构识别单元21。在用于语音对话激活的系统中这种划分也是有利的。用于讲话者适应的附加单元18集成在单词识别单元19中,并在那里起到与在第一实施例中相同的作用。\n[0078] 语音对话单元32也具有相应更大的功能范围。语音对话单元设计用于进行与授权的讲话者进行语音对话,其中语音对话流程适应性地由授权的讲话者控制。例如,使用者可以通过选择菜单的不同选项来控制这种语音对话流程。例如在使用者选择选项之后,他可以到达具有其它选项的其它菜单。除了进行语音对话之外,语音对话单元32还设计用于,根据授权的讲话者的指令来输出用于车辆功能的不同的控制信号。\n[0079] 除了与第一实施例的上述区别之外,在图2中示出的实施例的不同之处还在于,代替一个扬声器6布置了多个扬声器6。然而,如在第一实施例中那样,这些扬声器也仅设计用于输出单声道信号。\n[0080] 与前述实施例的区别还在于,噪声抑制单元具有第三输出端22。该输出端连接至驾驶员状态识别单元39。该驾驶员状态识别单元用于识别驾驶员的状态,如嘶哑、疲劳、醉酒、吸毒或愤怒。\n[0081] 将识别出的驾驶员状态传输到语音对话单元。语音对话单元设计用于在关于结果行为的决策方面对驾驶员状态加以考虑。\n[0082] 与图1的实施例的区别还在于,该系统设计用于干涉,也就是说如果当还在基于前述指令进行语音输出的同时识别出指令,则中止该语音输出。\n[0083] 图3示出了语音对话激活系统的第二实施例。该实施例与图1所示的实例的区别在于,代替扬声器6而设有扬声器组合33。扬声器组合设计用于输出单声道-、立体声-和多声道信号34。相应地,回波补偿单元设计用于补偿多声道信号34。此外,正如在图2中所示的实施例那样,语音对话激活系统包括驾驶员状态识别单元39。\n[0084] 图4示出用于进行语音对话的系统的第二实施例。在该实施例中代替单个麦克风\n2安装了麦克风阵列35以及一些另外的麦克风36。麦克风阵列以及另外的麦克风这样设计,即它们具有方向特性,也就是说它们优选地接收来自特定的空间区域的声波。通过麦克风阵列35接收了多声道语音信号37,该多声道语音信号取代语音信号8被传输至回波补偿单元。\n[0085] 此外,在此也使用扬声器组合用于输出单声道-、立体声-和多声道信号。\n[0086] 麦克风阵列35可以包括未示出的麦克风跟踪装置,该麦克风跟踪装置使阵列的麦克风自动跟踪授权的讲话者。为此,麦克风跟踪装置分析语音信号相对于阵列的不同麦克风的渡越时间差并因此确定授权的讲话者的地点。\n[0087] 通过麦克风阵列接收的语音信号在输入到回波补偿单元中之前,在连接在麦克风阵列之后的、用于处理麦克风信号的单元中通过信号的时间延迟的相加得出总和来进一步处理。由此将授权的讲话者的信号分离并减小所有其它的讲话者信号和干扰信号。\n[0088] 另外的麦克风36中的任一个对齐每个其它的车辆位置。回波补偿单元包括子单元38,该子单元设计用于根据另外的麦克风36的信号补偿在车辆内部空间中的其他人对信号37的影响。也就是说,该子单元根据另外的麦克风36的信号计算其他人对信号37的可能的影响,并相应地减去该信号分量。\n[0089] 此外,回波补偿单元分析多声道语音信号37的不同声道的渡越时间差,并且去除信号37的所有分量,这些分量相应于其渡越时间差并不从授权的讲话者的地点出发。\n[0090] 附加地,在图4中所示的实施例的不同之处在于,存储装置17与用于连接USB端口、读卡器或光驱的输出端40连接。由此,能够实现使用者模型的输入和/或输出。\n[0091] 当然,扬声器和麦克风的选择不取决于是否存在用于进行语音对话或激活语音对话的系统,也就是说,根据图2或4的具有扬声器/麦克风布置的、用于激活语音对话的系统,或根据图1或3的具有扬声器/麦克风布置的、用于进行语音对话的系统也都是有利的。
法律信息
- 2023-02-03
专利权的转移
登记生效日: 2023.01.18
专利权人由大陆汽车有限责任公司变更为大陆汽车科技有限公司
地址由德国汉诺威变更为德国汉诺威
- 2015-12-16
- 2012-10-17
实质审查的生效
IPC(主分类): G10L 17/00
专利申请号: 201010527304.5
申请日: 2010.10.29
- 2011-05-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| | 暂无 |
2005-04-08
| | |
2
| | 暂无 |
2008-07-30
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |