1.一种用于电子装置的方法,包括:
在电子装置的触摸屏被锁定时接收语音信号并识别语音信号的言语,其中,语音信号包括唤醒命令,唤醒命令之后紧接着语音命令;
当所述言语被识别为包含唤醒命令时,对触摸屏进行解锁,并且激活语音命令模式并将包含接收到的语音信号的语音命令的信号发送到服务器;
响应于由服务器识别的信号之内的语音命令,接收并处理由服务器产生和发送的控制信号。
2.如权利要求1所述的方法,其中,处理控制信号的步骤包括:执行电子装置的特定应用。
3.如权利要求1所述的方法,其中,处理控制信号的步骤包括:显示与语音识别相应的结果。
4.如权利要求1所述的方法,还包括:一旦激活了语音命令模式,就在触摸屏上显示对象,其中,该对象指示语音命令模式被激活。
5.如权利要求1所述的方法,其中,只要语音信号的预定说话者被识别,言语就被识别为包含预定唤醒命令。
6.如权利要求5所述的方法,其中,当识别预定说话者的语音时,自动检测唤醒命令。
7.如权利要求5所述的方法,其中,当识别预定说话者的语音并且在预定说话者的言语之内识别预定唤醒命令时,检测到唤醒命令。
8.如权利要求1所述的方法,其中,在空闲模式下通过电子装置的麦克风输入语音信号,当在空闲模式下检测到唤醒命令时,语音命令模式被激活。
9.一种电子装置,包括:
语音信号识别模块,用于在电子装置的触摸屏被锁定时接收语音信号并识别语音信号的言语,其中,语音信号包括唤醒命令,唤醒命令之后紧接着语音命令;
发送模块,用于当所述言语被识别为包含唤醒命令时,对触摸屏进行解锁,并且激活语音命令模式并将包含接收到的语音信号的语音命令的信号发送到服务器;
接收模块,用于响应于由服务器识别的信号之内的语音命令,接收并处理由服务器产生和发送的控制信号。
用于在电子装置中执行语音命令的方法和设备\n技术领域\n[0001] 本公开总体涉及一种电子装置。更具体地讲,本公开涉及一种用于在电子装置中执行语音命令的设备和方法。\n背景技术\n[0002] 近来,随着多媒体技术已发展,具有多功能的电子装置已激增。这样的多功能装置的示例包括便携式终端(例如,智能电话、平板PC、智能相机)以及固定的基于家庭的装置(例如,与家用厨房电器集成的电子装置)。电子装置大多包括组合多个功能的汇聚功能。\n[0003] 便携式终端设计者努力实现先进的性能以及汇聚功能,以及装置的纤薄和审美设计作为一体。终端制造者竞争来呈现大致相同或先进的性能,并设计比先前的设计更小和更薄的新的模型。\n[0004] 在可用的各种功能中,最近商业化的装置提供相对高的精确度的语音识别功能。\n这样的语音识别功能精确地识别用户的语音以在没有按压分离的按钮或触摸键或触摸屏的情况下容易地执行装置的相应功能。\n[0005] 例如,语音识别功能允许用户在便携式终端(例如,智能电话)中无需单独的操纵而做出呼叫或编写文本消息,以发送产生的消息,并容易地设置各种功能(例如,路线规划、互联网搜索和闹铃)。\n[0006] 为了执行语音识别功能,现有技术驱动相应的语音识别应用,激活语音识别功能,随后执行相应的功能。\n[0007] 然而,为了执行语音识别,响应于分离的键或触摸屏上的触摸输入命令,语音识别应用被初始启动。此操作违背用于促进数据输入(而没有触摸)的语音识别的独特功能。另外,开始语音识别应用需要在包括各种应用对象的显示屏上找出语音识别应用,这在特定情况下可能会困难并且费时。\n发明内容\n[0008] 公开了一种用于在一种电子装置中执行语音命令的设备和方法的实施例。在示例性实施例中,检测语音信号并识别语音信号的言语。当识别的言语包含唤醒命令时,激活语音命令模式,并且至少包含检测到的语音信号的一部分的信号被发送到服务器。服务器产生与语音命令相应的控制信号或结果信号,并将所述与语音命令相应的控制信号或结果信号发送回电子装置。电子装置接收并处理控制信号或结果信号,并被唤醒。从而,在不需要用户物理地触摸电子装置的情况下执行语音命令。\n[0009] 在各种实施例中:\n[0010] 语音信号可包括唤醒命令,其中,唤醒命令紧接着语音命令。\n[0011] 唤醒命令还可包括语音命令。\n[0012] 可在在唤醒命令和语音命令之间确定沉默持续时间。\n[0013] 处理控制信号或结果信号的步骤可包括执行电子装置的特定应用。\n[0014] 处理控制信号或结果信号的步骤可包括显示与所述结果信号相应的数据。\n[0015] 一旦激活语音命令模式,就可在指示语音命令模式被激活的显示器上激活对象。\n[0016] 当在言语中的唤醒命令被识别之前屏幕被锁定时,可响应于识别的唤醒命令对屏幕进行解锁。\n[0017] 只要语音信号的预定说话者被识别,言语可被识别为包含预定唤醒命令。当预定说话者的语音被识别时,可自动检测唤醒命令。\n[0018] 可选择地,当识别预定说话者的语音并且在预定说话者的言语之内识别预定唤醒命令时,可检测到唤醒命令。在另一实施例中,一种用于在电子装置中执行语音命令的方法,包括:检测包含唤醒命令和语音命令中的至少一个的语音信号;将所述语音信号发送到服务器;在接收指示服务器检测到语音信号中的唤醒命令的结果信号时,唤醒电子装置;从服务器接收与语音命令相应的控制信号或结果信号;处理所述与语音命令相应的控制信号或结果信号。\n[0019] 在实施例中,一种可在用于支持电子装置的语音命令的服务器中进行操作的方法,包括:从电子装置接收至少包含语音命令的发送的语音信号;通过识别和分析所述语音命令来产生与所述语音命令相应的控制信号或结果信号;将与第一语音命令相应的控制信号或结果信号发送到电子装置。\n[0020] 在实施例中,一种电子装置包括:一个或多个处理器;存储器;存储在存储器中并被配置为被一个或多个处理器执行的一个或多个程序,其中,所述程序包括用于检测语音信号并识别语音信号的言语的指令;当所述言语被识别为包含唤醒命令时,激活语音命令模式并将至少包含检测到的语音信号的部分的发送信号发送到服务器;响应于由服务器识别的发送信号之内的语音命令,接收并处理由服务器产生和发送的控制信号或结果信号。\n[0021] 根据本发明的另一方面,通过下面结合附图公开本发明的示例性实施例的详细描述,本发明的其他方面、优点和突出特点对本领域的技术人员会变得清楚。\n附图说明\n[0022] 从以下结合附图进行的描述,本发明的特定示例性实施例的上述和其它方面、特点和优点将会变得更加清楚,其中:\n[0023] 图1A是根据本发明的示例性实施例的用于执行语音命令的电子装置的框图;\n[0024] 图1B是根据实施例的用于执行语音命令的系统的示图;\n[0025] 图2是根据本发明的一个示例性实施例的用于在电子装置中执行唤醒命令和语音命令的方法的流程图;\n[0026] 图3是根据本发明的一个示例性实施例的可在服务器中进行操作的方法的流程图;\n[0027] 图4是根据本发明的另一示例性实施例的用于在电子装置中执行语音命令的方法的流程图;\n[0028] 图5是根据本发明的另一示例性实施例的可在服务器中进行操作的另一方法的流程图;\n[0029] 图6是根据本发明的另一示例性实施例的用于在电子装置中执行语音命令的方法的流程图;\n[0030] 图7示出根据本发明的实施例的包括可检测到和识别的唤醒命令和语音命令的语音信号;\n[0031] 图8A、图8B和图8C示出根据本发明的示例性实施例的基于包括唤醒命令和语音命令的语音信号的拨号;\n[0032] 图9A和图9B描绘根据本发明的示例性实施例的用于示出通过唤醒命令检测解锁的屏幕的屏幕截图。\n[0033] 贯穿附图,相同的标号将被理解为指示相同的部件、组件和结构。\n具体实施方式\n[0034] 提供以下参照附图进行的描述以帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。所述描述包括各种特定细节来帮助理解,但是这些细节将被认为仅仅是示例性的。因此,本领域的普通技术人员将认识到,在不脱离本发明的范围和精神的情况下,可对在此描述的实施例进行各种改变和修改。另外,为了清楚和简明,可省略对公知功能和构造的描述。\n[0035] 以下描述和权利要求中使用的术语和词语不限于书面含义,而是仅被发明人使用以使得能够清楚和一致地理解本发明。因此,本领域的技术人员应清楚,提供下面对本发明的示例性实施例的描述仅是为了说明目的,而不是为了限制由所附权利要求及其等同物限定的本发明的目的。\n[0036] 应该理解,除非上下文清楚地另有指示,否则单数形式包括复数指示物。因此,例如,提到“组件表面”包括提到一个或多个这样的表面。\n[0037] 对于术语“大体上”,它意味着叙述的特征、参数或值不需要精确达到,而是,包括例如公差、测量误差、测量精度限制和对本领域技术人员已知的其他因素的偏差或变化可以以不妨碍所述特征意图提供的效果的量而发生。\n[0038] 本发明的示例性实施例提供一种用于在电子装置和服务器中执行语音命令的设备和方法。\n[0039] 图1A描绘根据本发明的示例性实施例的用于执行语音命令的电子装置100。电子装置100可以是各种固定或便携式装置中的任意一个。便携式装置可以是便携式终端、移动终端、移动平板电脑、移动播放器、平板计算机、智能电话、笔记本/台式计算机、个人数字助理(PDA)、智能相机等。电子装置可以是组合这些装置的两个或多个功能的便携式电子装置。固定电子装置的示例是连接到家用电器(例如,厨房电器)的电子显示装置。\n[0040] 电子装置100可包括控制器110、扬声器/麦克风112、相机120、全球定位系统(GPS)接收器130、射频(RF)单元140、传感器模块150、触摸屏160、触摸屏控制器165和外部存储器\n170。\n[0041] 简单地说,根据本发明的实施例,装置100检测语音信号并识别言语。当所述言语被识别为包含唤醒命令时,装置100激活语音命令模式。在语音命令模式下,装置100能够响应于随后的语音命令。因此,如果装置处于锁屏状态或空闲状态(或条件允许的情况下处于这两种状态),则装置100可通过唤醒命令识别被唤醒,而不需要用户物理地触摸装置100上的键或触摸屏。一旦检测到唤醒命令,就执行言语识别处理以辨别是否已发出语音命令。如果识别出语音命令,则装置100可随后执行与所述命令相关的操作。\n[0042] 在一个实施例中,在装置100中执行唤醒命令检测和语音命令检测两者。在另一个实施例中,在装置100中执行唤醒命令检测,并在服务器中执行语音命令识别,接着将来自装置100的语音信号的一部分发送到服务器。在另一个实施例中,在服务器中执行唤醒命令检测和语音命令识别两者。\n[0043] 控制器100可包括接口101、一个或多个处理器102和103以及内部存储器104。在一些情况下,整个控制器110可被称为处理器。接口101、应用处理器102、通信处理器103和内部存储器104可以是单独的组件或被集成在一个或多个集成电路上。\n[0044] 应用处理器102通过运行各种软件程序来执行用于电子装置的各种功能,通信处理器103处理并控制语音通信和数据通信。除这些典型的功能之外,处理器102和103还执行存储在外部存储器170或内部存储器104中的特定的软件模块(指令集),并进行与所述模块相应的特定功能。即,处理器102和103执行与存储在外部存储器170或内部存储器104中的软件模块相关的本发明的方法。\n[0045] 根据本发明的一个示例性实施例(与图2的方法相应),应用处理器102通过麦克风\n110从用户接收包括唤醒命令和随后的语音命令的语音信号,并对所述语音信号执行言语识别,以检测唤醒命令的存在。当检测到唤醒命令时,应用处理器102可检测在语音信号中的唤醒命令和随后的语音命令之间的沉默持续时间。因此,应用处理器102确定与语音命令相应的语音信号的一部分是否开始,当确定与语音命令相应的语音信号的一部分开始时,应用处理器102将所述语音信号的一部分发送到服务器。接下来,应用处理器102从服务器接收与所述语音命令相应的语音识别结果,并基于此结果执行相应的操作。\n[0046] 根据本发明的另一示例性实施例(与图4的方法相应),应用处理器102将包括唤醒命令部分和语音命令部分的所有语音信号发送到服务器,并从服务器接收与唤醒命令相应的说话者验证结果。当所述结果指示检测到唤醒命令时,应用处理器102激活系统。接下来,应用处理器102接收与语音命令相应的语音识别结果,并基于所述语音识别结果执行操作。\n[0047] 根据本发明的另一示例性实施例(与图6的方法相应),应用处理器102通过麦克风\n110从用户接收包括唤醒命令和语音命令的语音信号,并使用言语识别执行唤醒命令检测。\n当检测到唤醒命令时,应用处理器102使用语音识别算法识别语音信号的随后的部分中的语音命令,并基于识别的语音命令执行相应的操作。\n[0048] 一个或多个语音识别处理器和说话者验证处理器可以是应用处理器102的一部分,或可被提供为单独的处理器。语音识别处理器和说话者验证处理器可被统一,并包括根据其实施方式用于不同的功能的多个处理器。接口101将电子装置100的触摸屏控制器165与外部存储器170或内部存储器104相互连接。\n[0049] 传感器模块150被连接到接口101以允许各种功能。例如,运动传感器和光学传感器可被连接到接口101以检测电子装置的运动或检测来自外部的光。除了这些之外,其它传感器(例如,位置确定系统、温度传感器或生物识别传感器)可被连接到接口101以进行相关的功能。\n[0050] 相机120通过接口101被连接到传感器150以执行相机功能(例如,拍摄和视频剪辑录制)。\n[0051] 可包括至少一个处理器的RF单元140执行通信功能。例如,在通信处理器103的控制下,RF单元140将RF信号转换为基带信号,并将基带信号提供给通信处理器103,或者将从通信处理器103输出的基带信号转换为RF信号,并通过天线ANT发送RF信号。这里,通信处理器103根据各种通信方案处理基带信号。例如,通信方案可包括但不限于:全球移动通信系统(GSM)通信方案、增强型数据GSM环境(EDGE)通信方案、码分多址(CDMA)通信方案、W-CDMA通信方案、长期演进(LTE)通信方案、正交频分多址(OFDMA)通信方案、无线保真(Wi-Fi)通信方案、WiMax通信方案和/或蓝牙通信方案。\n[0052] 扬声器/麦克风110可输入和输出用于诸如语音识别(在训练处理期间使用以训练装置100识别特定说话者和/或唤醒命令和/或语音命令)、语音再现、数字记录和电话功能之一的语音信号。即,扬声器/麦克风110将语音信号转换为电子信号或者将电子信号转换为语音信号。可连接的和可拆卸的耳机、头戴受话器或头戴式耳机(未示出)可通过外部端口连接到电子装置。\n[0053] 触摸屏控制器165可被连接到触摸屏160。触摸屏160和触摸屏控制器165可使用但不限于用于确定与触摸屏160的一个或多个触摸点的电容式、电阻式、红外线和表面声波技术和包括各种接近传感器阵列或其它元素的多点触摸检测技术,来检测触摸和运动或触摸和运动的停止。\n[0054] 触摸屏160提供电子装置和用户之间的输入/输出接口。即,触摸屏160将用户的触摸输入转发到电子装置100。触摸屏160还将装置100的输出呈现给用户。即,触摸屏160将视觉输出呈现给用户。即,视觉输出可被表示为文本、图像、视频以及它们的组合。\n[0055] 触摸屏160可采用各种显示器,所述各种显示器的示例包括但不限于:液晶显示器(LCD)、发光二极管(LED)、发光聚合物显示器(LPD)、有机LED(OLED)、有源矩阵OLED(AMOLED)或柔性LED(FLED)。\n[0056] GPS接收器130将从“人造”卫星接收的信号转换为诸如位置、速度或时间的信息。\n例如,卫星和GPS接收器130之间的距离可通过将光的速度乘以信号到达时间来计算,并通过获取三个卫星的准确位置和距离使用公知的三角测量法来测量电子装置的位置。\n[0057] 外部存储器170或内部存储器104可包括快速随机存取存储器(例如,一个或多个磁盘存储装置)和/或非易失性存储器、一个或多个光学存储装置、和/或闪速存储器(例如,NAND和NOR)。\n[0058] 外部存储器170或内部存储器104存储软件。软件组件包括操作系统软件模块、通信软件模块、图形软件模块、用户界面软件模块、MPEG模块、相机软件模块以及一个或多个应用软件模块。用于作为软件组件的模块可以是一组指令,因此所述模块可被称为指令组。\n所述模块可被称为程序。\n[0059] 操作系统软件包括用于控制一般系统操作的各种软件组件。一般系统操作的控制包括:例如,存储器管理和控制、存储器硬件(装置)控制和管理以及电力控制和管理。操作系统软件可对各种硬件装置和软件组件(模块)之间的正常通信进行处理。\n[0060] 通信软件模块允许通过RF单元140与其它电子装置(例如,计算机、服务器、和/或便携式终端)进行通信。以相应的通信方案的协议构架配置通信软件模块。\n[0061] 图形软件模块包括用于在触摸屏160上提供和显示图形的各种软件组件。术语“图形”包含文本、网页、图标、数字图像、视频、动画等。\n[0062] 用户界面软件模块包括与用户界面相关的各种软件组件。用户界面软件模块涉及用户界面的状态改变和用户界面状态改变的条件。\n[0063] 相机软件模块包括允许相机相关处理和功能的相机相关软件组件。应用模块包括:浏览器、电子邮件、即时消息、词语处理、键盘仿真、地址簿、触摸列表、窗口小部件、数字版权管理(DRM)、语音识别、语音再现、位置确定功能、基于位置的服务等。除上述的模块之外,存储器170和104可包括附加的模块(指令)。可选择地,如果需要,则可不使用一些模块(指令)。\n[0064] 在此,应用模块包括用于执行说话者识别功能或言语识别功能和语音命令执行功能的指令。根据本发明的示例性实施例的指令与用于执行图2、图4和图6中所示的操作的指令相应。\n[0065] 以上提及和将被解释的电子装置100的各种功能可在包括一个或多个信号处理和/或专用集成电路(ASIC)的硬件和/或软件和/或他们的组合中被执行。\n[0066] 图1B中示出根据本发明的实施例的用于执行语音命令的系统195。系统195包括通过网络180与服务器190进行通信的便携式终端100。服务器190可以是例如家庭网络服务器或通过大型网络(例如,互联网)访问的远程服务器。可选择地,服务器190可以是能够对发送到服务器190的语音信号执行言语/语言/说话者识别和分析功能的第三方便携式电子装置。服务器190最少包括至少一个处理器192和存储器194,以执行操作的主机。下文中将结合电子装置100描述服务器190的示例性操作。\n[0067] 图2是根据本发明的一个示例性实施例的用于在电子装置100中执行唤醒命令和语音命令的方法200的流程图。\n[0068] 在步骤201,电子装置100通过麦克风110从用户检测可包含唤醒命令和语音命令的语音信号。唤醒命令激活系统的语音命令模式,其中,为了接收和分析语音命令,不需要与触摸屏或键的触摸接触。在接收此语音信号之前,装置100可处于空闲模式或锁屏模式。\n在一些实施例中,在接收语音信号之前,装置100可处于这样的应用执行模式,其中,没有执行用于语音命令的收听或响应于语音命令的操作。\n[0069] 在以下描述中,将假设唤醒命令一般独立于临时跟随在唤醒命令之后的语音命令。然而,在下面另外讨论的一些“说话者依赖”实施例中,由预定的说话者说出的被检测的语音信号可用作唤醒命令。在一些其它实施例中(说话者依赖或说话者独立),唤醒命令还包含固有的语音命令。在后者的情况下,唤醒命令激活语音命令模式并且是装置100执行附加的预定任务(例如,运行由用户设置的预定义应用)的催化剂。\n[0070] 例如,唤醒命令可命令切换到用于输入语音命令的模式(“语音命令模式”)和/或对屏幕进行解锁。语音命令执行由电子装置100提供的各种功能。例如,语音命令执行拨号、拍摄、MP3播放等。在各种实施方式中,语音命令可请求服务器190搜索地图并计划路线。\n[0071] 在步骤202,电子装置100对语音信号执行言语识别,以辨别语音信号是否包含预定的唤醒命令。此言语识别可包括在一个实施例中的说话者依赖识别方案或在另一实施例中的说话者独立识别方案。另外的方案是可行的,其中,多个不同的唤醒命令被预定,其中,一个或多个预定命令是说话者依赖唤醒命令,一个或多个其他命令是说话者独立命令。\n[0072] 根据说话者依赖识别方案,特定说话者或用户需要提前以他/她自己的语音训练识别器。在此情况下,言语识别器可仅识别训练的语音的言语。说话者独立识别方案可识别任意说话者语音的言语。说话者独立识别方案提前提取关于成百上千的语音的信息并将所述信息存入数据库,因此,任何用户可使用所述信息,而无需单独的训练处理。\n[0073] 在一些实施例中,使用说话者依赖识别,说话者可使用语音信号(可包括整个语音信号)中的语音命令部分被验证。因此,不存在输入单独的唤醒命令的需要。例如,当使用用户的唯一语音特征来验证说话者时,不存在输入单独的唤醒命令的需要。因此,在这些实施例中,语音命令还可操作为唤醒命令。因此在步骤202和204,识别特定用户的特定语音,并通过此言语识别来自动检测唤醒命令。\n[0074] 可选择地,使用以预定义文本和用户的唯一语音特征的说话者依赖识别,用户可通过输入与预定义文本相应的他的语音来训练装置100以验证说话者(和特定的唤醒命令)。这样做,需要输入唤醒命令。在此,预定义文本可被用户直接输入或通过若干次输入语音被转换。电子装置100或服务器190可将语音转换为文本。\n[0075] 当在步骤204检测到唤醒命令时,所述方法进行到步骤206。否则,所述方法返回到\n201。\n[0076] 尽管未示出在图2中,当成功检测到唤醒命令时,在锁屏模式下“用于识别语音命令的对象”在显示器上被激活(见图8A)。可以是虚拟麦克风的此对象指示语音命令模式的激活(即,装置正积极收听语音命令)。此时,如果一个褪了色的版本先前可见,则该对象可在锁屏中被首先显示,或者,以被强调的方式被显示。此时,与言语/语音识别相关的图形用户界面(GUI)也可被显示。可选择地,当检测到唤醒命令时,显示的对象可被激活并且与语音识别相关的GUI可立即被显示在锁屏中。\n[0077] 在实施例变化中,当在空闲模式下检测到唤醒命令并且屏幕被锁定时,用于识别语音命令的对象和与语音识别相关的GUI被一起显示。当屏幕没有被锁定时,用于识别语音命令的对象和与语音识别相关的GUI也可被一起显示。\n[0078] 在步骤206,电子装置100检测在与唤醒命令相应的检测到的语音信号的第一部分(在下文中,“第一语音信号”)和与语音命令相应的检测到的语音信号的第二部分(在下文中,“第二语音信号”)之间的沉默持续时间(如果存在)。当然,这假设语音命令是与唤醒命令分离的实体(如上所述,在唤醒命令也是语音命令的情况下实施例是可行的)。例如,假设唤醒命令是“你好Galaxy”,并且语音命令是“呼叫Hong Gil-dong”,当用户连续发音“你好Galaxy”和“呼叫Hong Gil-dong”时,沉默持续时间存在于“你好Galaxy”和“呼叫Hong Gil-dong”之间。\n[0079] 在检测到的言语中的两个词语之间的短暂的停顿可被用于检测语音命令的开始。\n在实施例中,紧跟着唤醒命令的检测到的语音信号的无关的部分可被阻止与随后的语音命令一起被发送到服务器。这样做,可使用语音活动检测(VAD)技术。例如,语音信号通常具有比包括“沉默”时间段的背景噪声信号具有更多的能量。然而,当背景噪声低时,可附加地识别人的声音的独特的特征。通常,通过观察贯穿各种频率的能量分布来识别人的声音的独特的特征。人的声音包括特征标志(characteristics signature)而不包括噪声。因此,VAD技术可区分言语和包括背景噪声的沉默时间段。因此,在实施例中,装置100等待直到检测到言语,此后,仅发送跟随唤醒命令的已检测到的言语开始的声音信号,而不将包括唤醒命令之后检测到的所有声音的音频信号发送到服务器。即,方法200避免发送只是包含唤醒命令检测之后的沉默时间段的噪声的信号。\n[0080] 在步骤208,装置100确定与语音命令相应的第二语音信号是否开始。例如,装置\n100检查与“呼叫Hong Gil-dong”相应的语音信号的开始点。当第二语音信号开始时,在步骤210,装置100将与所述语音命令(例如,“呼叫Hong Gil-dong”)相应的语音信号发送到服务器。(发送到服务器的语音信号的部分在此不同地被称为“发送信号”)。(当与语音命令相应的语音信号在208没有开始时,所述流程返回到206)。有利地,通过将语音命令发送到服务器,装置100使得处理器免受识别语音命令的言语的增强任务。\n[0081] 在步骤212,装置100从服务器接收与语音命令相应的语音识别结果。例如,服务器分析语音命令“呼叫Hong Gil-dong”,并将与“呼叫Hong Gil-dong”相应的控制信号发送到装置100或发送路线规划请求或地图搜索请求的搜索结果。\n[0082] 在步骤214,装置100基于与语音命令相应的语音识别结果执行相应的操作,或显示与语音识别相应的结果。例如,当从服务器接收到与“呼叫Hong Gil-dong”相应的控制信号时,装置100在电话簿搜索Hong Gil-dong的电话号码并尝试以搜索的电话号码连接呼叫。在地图/路线请求的情况下,装置100显示路线规划请求或地图搜索请求的搜索结果。此后,所述处理结束。\n[0083] 图3是示出根据本发明的一个示例性实施例的由服务器190执行的方法300的流程图。此方法可补足在装置100中进行操作的上述方法200的操作。在此实施例中,在步骤301,服务器从电子装置接收发送信号(例如,在图2的步骤210发送的)(即,与语音命令(例如,“呼叫Hong Gil-dong”))相应的语音信号。\n[0084] 接下来,在步骤302,服务器使用语音识别算法(相当于“言语识别”算法)分析与语音命令相应的语音信号。即,服务器分析语音信号以识别言语并从识别的言语辨别语音命令。在步骤304,服务器随后确定与语音识别相应的结果是否是控制信号。如果是,则在步骤\n306,服务器将与语音识别相应的控制信号发送到装置100。例如,在识别“呼叫Hong Gil-dong”之后,服务器将相应的控制信号提供给装置100,以指示装置100以从装置100的电话簿存储器提取的相关的电话号码呼叫Hong Gil-dong。\n[0085] 当与语音识别相应的结果不是控制信号时,在步骤308,服务器将与语音识别相应的结果提供给电子装置。可选择地,服务器发送包含路线规划请求或地图搜索请求的搜索结果的图像内容,装置100藉此显示所述内容。\n[0086] 可选择地,在方法200和300的示例性实施例中,电子装置来实现唤醒命令检测,并且服务器实现语音命令的语音识别。根据本发明的另一示例性实施例,服务器执行唤醒命令检测和语音命令的语音识别。\n[0087] 图4是根据本发明的另一示例性实施例的在装置100中执行的另一示例方法的流程图。这里,在步骤401,在空闲模式和/或锁屏模式下,装置100通过麦克风110从用户接收包括唤醒命令的语音信号,其中,在唤醒命令不久之后(或连续之后)紧接着语音命令。如前所述,当识别到唤醒命令时,激活系统。例如,唤醒命令可指示切换到用于输入语音命令的模式和/或对屏幕进行解锁。语音命令指示执行由电子装置100提供的各种功能。例如,语音命令执行拨号、拍摄、MP3播放等。\n[0088] 在步骤402,装置100将包括唤醒命令和语音命令的整个语音信号发送到服务器作为发送信号。接下来,从服务器接收到与唤醒命令相应的语音验证结果(步骤404)。即,当服务器检测到发送信号包含唤醒命令时,服务器发送在步骤404接收的语音识别结果;否则,服务器可不将任何识别信号发送回装置100。例如,当装置在步骤404接收到识别结果时,这指示检测到唤醒命令,并且在步骤406,装置100激活系统。系统激活对屏幕进行解锁或从空闲模式切换到激活模式或语音命令模式。(随着系统激活并且处于语音命令模式,装置100随后可如步骤401检测包含语音命令的新的语音信号,并相应地重复步骤402至404和随后的步骤。)\n[0089] 接下来,在步骤408,装置100接收与语音命令相应的语音识别结果,并在步骤410,基于语音识别结果执行操作或显示与语音识别相应的结果。例如,当从服务器接收到与“呼叫Hong Gil-dong”相应的控制信号时,装置100在电话簿搜索Hong Gil-dong的电话号码并尝试以搜索的电话号码连接呼叫。在地图/路线示例中,装置100显示路线规划请求或地图搜索请求的搜索结果。此后,所述处理结束,装置100可在步骤401接收新的语音信号,并且将这些新的语音信号转发到服务器以进行处理,服务器藉此可继续通过发送控制信号和/或与随后的语音命令相应的结果来进行响应。即,由于装置100已经被唤醒,因此可以以仅用于语音命令的(而当然不是用于唤醒命令)相关操作重复步骤401至410。\n[0090] 图5是根据本发明的另一示例性实施例的由服务器190执行的示例性方法500的流程图。此方法可完成在装置100中进行操作的上述方法400的操作\n[0091] 在步骤501,服务器从电子装置501接收包括唤醒命令和语音命令的语音信号(即,在步骤402发送的发送信号)。在步骤502,服务器语音识别验证算法分析与唤醒命令相应的语音信号。即,服务器分析与唤醒命令相应的语音信号,因此确定是否检测唤醒命令。此操作可与在实施例中由装置100执行的图2中的步骤202和204相同。注意,如图2的实施例中,可执行说话者依赖和/或说话者独立算法操作(在考虑多个预定的唤醒命令的情况下,可采用两种类型的识别方案)。\n[0092] 在步骤504,服务器将言语验证结果提供给电子装置。注意,在其他实施方式中可省略步骤504。\n[0093] 当在步骤506检测到唤醒命令作为言语识别处理的结果时,在步骤508,服务器随后使用语音识别算法分析与语音命令相应的语音信号。即,服务器识别与语音命令相应的言语,并产生与将由装置100执行的动作相应的响应信号,用于特定辨别的语音命令。相反地,当在语音信号中未检测到唤醒命令时,流程返回到步骤501。为此,服务器可发送通知装置100未检测到唤醒命令的信号,在步骤501,装置100藉此可继续将新检测到的语音信号发送到服务器。在各种实施方式中,当与先前的语音命令相应的语音信号是正常时,服务器可请求和接收仅与唤醒命令相应的第一语音信号。\n[0094] 尽管未示出,服务器可检测与唤醒命令相应的语音信号和与语音命令相应的语音信号之间的沉默持续时间,因此区分唤醒命令和语音命令。\n[0095] 在步骤510,服务器向电子装置通知唤醒命令结果和语音识别结果(响应信号)。例如,服务器通过分析言语是否包含短语“你好Galaxy”来确定是否检测到唤醒命令,分析语音命令“呼叫Hong Gil-dong”,因此将与“呼叫Hong Gil-dong”相应的控制信号发送给电子装置100。\n[0096] 接下来,服务器结束此处理,并可被配置为收听如在步骤501来自装置100的随后的语音信号发送。为此,在装置100和服务器190之间的适当的信令可被设计为向服务器190通知装置100是否已返回到空闲模式或锁屏模式。如果是,服务器将把随后接收的语言信号视作可包含唤醒命令的语音信号。如果不是,服务器将指示自然地收听新的语音命令。\n[0097] 图6是描绘根据本发明的另一示例性实施例的由电子装置执行的示例性方法600的操作的流程图。在此实施例中,电子装置执行用于语音命令的唤醒命令检测和语音识别两者。\n[0098] 步骤601、602、604、606和608可分别与图2的201、202、204、206和208相同。以下对步骤601至608的描述重述结合步骤201至208描述的一些概念。\n[0099] 在步骤601,在空闲模式或锁屏模式下,电子装置100通过麦克风110从用户接收包括唤醒命令和语音命令的语音信号。所述唤醒命令激活系统。例如,唤醒命令可指示切换到用于输入语音命令的模式或对屏幕进行解锁。语音命令执行由电子装置100提供的各种功能。例如,语音命令执行拨号、拍摄、MP3播放等。\n[0100] 在步骤602,装置100使用言语识别验证算法分析语音信号,以确定语音信号是否包含唤醒命令。如前所述,如果采用了说话者依赖识别,此操作可涉及仅检测语音与预定语音匹配,或者预定语音还包含与预定唤醒命令匹配的特定言语。可选择地,可使用说话者独立识别方案。当在步骤604识别唤醒命令时,流程进行到步骤606;否则,流程返回到步骤\n600。\n[0101] 在步骤606,装置100检测与唤醒命令相应的语音信号部分和与语音命令相应的语音信号部分之间的沉默持续时间。例如,假设唤醒命令是“你好Galaxy”并且语音命令是“呼叫Hong Gil-dong”,当用户连续发音“你好Galaxy”和“呼叫Hong Gil-dong”时,沉默持续时间介于“你好Galaxy”和“呼叫Hong Gil-dong”之间。\n[0102] 在步骤608,电子装置100确定与语音命令相应的语音信号是否开始。例如,在步骤\n608,电子装置100检查与“呼叫Hong Gil-dong”相应的语音信号的开始点。\n[0103] 当在步骤608,与语音命令相应的语音信号开始时,在步骤610,电子装置100使用语音识别算法分析所述与语音命令相应的语音信号。\n[0104] 在步骤612,电子装置100基于识别的语音命令执行相应的操作。例如,当识别的语音命令是“呼叫Hong Gil-dong”时,电子装置100在电话簿搜索Hong Gil-dong的电话号码,并尝试以搜索的电话号码连接呼叫。此后,所述处理结束。\n[0105] 图7描绘可在上述的实施例中被分析的包括唤醒命令和语音命令的示例语音信号。输入到电子装置100的示意性语音信号可连续包含唤醒命令和语音命令。即,语音信号可具有与唤醒命令相应的部分700和与语音命令相应的部分720,其中,所述部分700和720连续输入到电子装置。沉默持续时间部分710介于唤醒命令部分700和语音命令部分720之间。\n[0106] 图8A、图8B和图8C是描绘根据本发明的示例性实施例的使用包含唤醒命令和语音命令的语音信号进行拨号操作的屏幕截图。如图8A中所示,用于识别语音命令的图标对象\n800根据与唤醒命令相应的语音信号部分700被激活。如图8B中所示,与语音信号的语音命令部分720相应的语音命令(“呼叫Hong Gil-dong”)被识别,随后所述操作根据所述语音命令被执行。例如,Hong Gil-dong的电话号码在电话簿中被搜索,并且如图8C中所示,使用搜索的电话号码自动开始呼叫连接。\n[0107] 图9A和图9B描绘根据本发明的示例性实施例的通过言语识别和控制操作解锁的屏幕的屏幕截面。图9A描绘示例锁定屏幕;图9B示出示例解锁屏幕。可以以图2、图4和图6的上述方法(例如,步骤214、406、410或612)中的任意方法执行用于产生如图9A和图9B中所示的解锁屏幕的对锁屏进行解锁的处理。\n[0108] 响应于检测到与预定唤醒命令匹配或与特定用户的语音匹配的语音信号的唤醒命令部分700,图9A的锁定屏幕被切换到图9B的解锁屏幕。尽管未示出,在屏幕被解锁之后,可通过识别与唤醒命令相应的语音信号700之后的与语音命令(“呼叫Hong Gil-dong”)相应的语音命令部分720来执行相应的操作。\n[0109] 在上述的本发明的示例性实施例中,唤醒命令和语音命令是分离的。可选择地,与语音命令相应的语音信号可被用于说话者验证和语音命令。即,使用与语音命令相应的语音信号来验证说话者。当说话者验证成功时,可根据语音命令控制或执行电子装置的相应的功能。\n[0110] 根据本公开的上述方法可单独在硬件或软件中被实施,或在硬件和软件的组合中被实施。\n[0111] 对于软件,可提供包含一个或多个程序(软件模块)的计算机可读存储介质。存储到计算机可读存储介质的一个或多个程序被配置用于执行电子装置和/或服务器的一个或多个处理器。一个或多个程序包括使电子装置和/或服务器执行根据如在本公开的权利要求和/或说明书中所述的实施例的方法的指令。\n[0112] 这样的程序(软件模块,软件)可被存储到随机存取存储器、包括闪速存储器、只读存储器(ROM)、电可擦可编程ROM(EEPROM)、磁盘存储装置、紧凑盘ROM(CD-ROM)、数字通用磁盘(DVD)或其它光学存储装置的非易失存储器和磁带。可选择地,所述程序可被存储到将这些存储介质进行部分组合或全部组合的存储器。可配备多个存储器。\n[0113] 所述程序可被存储到通过通信网络(例如,互联网、局域网(LAN)、广LAN(WLAN)或存储区域网(SAN)或通过组合这些网络的通信网络)可访问的电子装置和/或服务器的可连接的存储装置。存储装置可通过外部端口访问电子装置和/或服务器。\n[0114] 通信网络中分离的存储装置可访问便携式电子装置/服务器。\n[0115] 如上所述,由于包括唤醒命令部分和语音命令部分的检测到的语音信号被处理,因此用户可容易地执行所述语音命令。\n[0116] 另外,由于在执行语音命令之前完成唤醒命令检测,因此可基于安全/个人信息保护来执行语音命令。\n[0117] 尽管已经参照本发明的特定示例性实施例示出和描述了本发明,但是本领域的技术人员将理解,在不脱离权利要求及其等同物所限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。
法律信息
- 2017-03-01
- 2014-01-15
实质审查的生效
IPC(主分类): G10L 17/22
专利申请号: 201310205259.5
申请日: 2013.05.29
- 2013-12-18
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2002-05-29
|
2000-03-07
| | |
2
| |
2006-12-20
|
2006-06-09
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |