著录项信息
专利名称 | 移动终端及其菜单控制方法 |
申请号 | CN200810127912.X | 申请日期 | 2008-07-02 |
法律状态 | 授权 | 申报国家 | 暂无 |
公开/公告日 | 2009-10-14 | 公开/公告号 | CN101557651 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04W88/02 | IPC分类号 | H;0;4;W;8;8;/;0;2;;;H;0;4;M;1;/;2;7查看分类表>
|
申请人 | LG电子株式会社 | 申请人地址 | 韩国首尔
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | LG电子株式会社 | 当前权利人 | LG电子株式会社 |
发明人 | 申宗壕;郭宰到;尹种根 |
代理机构 | 上海专利商标事务所有限公司 | 代理人 | 侯颖媖 |
摘要
一种移动终端包括:输入单元,其被配置成接收输入以激活所述移动终端上的语音识别功能;存储器,其被配置成存储与移动终端上执行的操作有关的信息;以及控制器,其被配置成在接收到用于激活语音识别功能的输入时激活语音识别功能,以基于移动终端上执行的至少一个先前的操作和包括在语音指令中的语言来确定输入语音指令的含义,以及基于移动终端上执行的至少一个先前操作和包括在语音指令中的语言并基于输入语音指令的所确定含义匹配与移动终端的操作有关的信息的概率,来提供与输入语音指令的所确定含义有关的操作。
移动终端及其菜单控制方法\n[0001] 发明背景\n技术领域\n[0002] 本发明涉及移动终端,以及相应的基于语音命令和该移动终端上先前执行的操作在该移动终端上执行操作的方法。\n[0003] 相关技术的描述\n[0004] 除基本的通话服务外,现在移动终端还提供很多附加服务。例如,用户现在可访问因特网、玩游戏、观看视频、听音乐、捕捉图像和视频、记录音频文件等。移动终端现在还提供广播节目,使得用户可观看电视节目、体育节目、视频等。\n[0005] 因此,移动终端包括复杂的图形用户界面或GUI,用户可使用它来访问终端上的各种功能。例如,用户可访问主菜单,然后选择诸如电子邮件子菜单、呼叫历史子菜单、互联网接入子菜单、图片子菜单等多个子菜单中的一个。一旦用户选择具体子菜单,移动终端提供用户可选择的又一个子菜单或选项列表,以执行期望功能。\n[0006] 然而,将菜单系统形成为树形图,以使用户必需执行数个中间功能以便于选择期望的最终功能。另外,因为终端的尺寸小,所以菜单选项的尺寸也小,且难以看见。当终端包括触摸屏显示器时触摸具体菜单选项也经常导致用户同时触摸一个以上的菜单项(因为菜单项密集地显示在一起)或用户触摸差错的菜单项。\n发明内容\n[0007] 因此,本发明的一个目的是解决以上指出的问题及其它问题。\n[0008] 本发明的另一个目的是提供一种移动终端,以及相应的识别语音指令的含义并基于所识别的语音指令控制终端的方法。\n[0009] 本发明的又一个目的是提供一种移动终端,以及相应的基于所识别的语音指令提供一个或多个菜单以操作终端的不同功能的方法。\n[0010] 为了实现这些或其它优点并根据本发明的目的,如本文具体表达并广泛描述的,在一个方面上,本发明提供了一种移动终端,包括:输入单元,其被配置成接收用于激活移动终端上的语音识别功能的输入;存储器,其被配置成存储与移动终端上执行的操作有关的信息;以及控制器,其被配置成在接收到用于激活语音识别功能的输入时激活语音识别功能,以基于移动终端上执行的至少一个先前的操作和包括在语音指令中的语言来确定输入语音指令的含义,以及基于移动终端上执行的至少一个先前操作和包括在语音指令中的语言并基于输入语音指令的所确定含义匹配与移动终端的操作有关的信息的概率,来提供与输入语音指令的所确定含义有关的操作。\n[0011] 在另一个方面中,本发明提供了一种控制移动终端的方法,其包括:接收用于激活移动终端上的语音识别功能的输入;在接收用于激活语音识别功能的输入之后激活语音识别功能;以及基于移动终端上执行的至少一个先前操作和包括在语音指令中的语言,并基于输入语音指令的所确定含义匹配与移动终端的操作有关的信息的概率,来提供与输入语音指令的所确定含义有关的操作。\n[0012] 本发明的适用性的进一步的范围将在下文给出的详细描述中变得显而易见。然而,应当理解,详细描述和特定例子尽管指示了本发明的较佳实施例但仅作为说明给出,因为在本发明的精神和范围内的各种变化和修改对本领域的技术人员来说在阅读详细描述之后是显而易见的。\n[0013] 附图简要说明\n[0014] 从下文给出的详细描述和附图中将更全面地理解本发明,该详细描述和附图仅作为例示给出,因此不是对本发明的限制,在附图中:\n[0015] 图1是根据本发明的实施例的移动终端的框图;\n[0016] 图2是根据本发明的实施例的移动终端的前侧立体图;\n[0017] 图3是图2中所示的移动终端的后侧立体图;\n[0018] 图4是根据本发明的实施例的可与图1-3中的移动终端一起操作的无线通信系统的框图;\n[0019] 图5是示出根据本发明的一个实施例的控制移动终端的方法的流程图;\n[0020] 图6(a)至6(c)是示出根据本发明的一个实施例的用于选择激活移动终端的语音识别功能的方法的显示屏的概观;\n[0021] 图7A是示出根据本发明的一个实施例的移动终端的语音识别方法的流程图;\n[0022] 图7B是根据本发明的另一个实施例的包括基于移动终端的语音识别率显示的菜单的显示屏的概观;\n[0023] 图7C是示出根据本发明的一个实施例的移动终端的语音识别方法的显示屏的概观;\n[0024] 图7D是示出根据本发明的一个实施例的移动终端的语音识别方法的显示屏的概观;\n[0025] 图8是示出根据本发明的一个实施例的在移动终端的语音识别方法中使用的数据库系统的框图;以及\n[0026] 图9是示出根据本发明的一个实施例的显示通知用户移动终端中正在执行语音指令的消息的显示屏的概观。\n具体实施方式\n[0027] 下面将详细参考本发明的较佳实施方式,其示例在附图中例示。\n[0028] 图1是根据本发明的实施例的移动终端100的框图。如图所示,移动终端100包括无线通信单元110,该无线通信单元110具有允许在移动终端100与该移动终端所在的无线通信系统或网络之间进行无线通信的一个或多个组件。\n[0029] 例如,无线通信单元110包括经由广播频道从外部广播管理实体接收广播信号和/或广播关联信息的广播接收模块111。广播频道可包括卫星频道和地面频道。\n[0030] 此外,广播管理实体通常是指发送广播信号和/或广播关联信息的系统。广播关联信息的示例包括与广播频道、广播节目、广播服务提供商等相关联的信息。例如,广播关联信息可包括数字多媒体广播(DMB)的电子节目指南(EPG)和手持数字视频广播(DVB-H)的电子服务指南(ESG)。\n[0031] 此外,广播信号可被实现为TV广播信号、无线电广播信号以及数据广播信号等。\n广播信号还可包括与TV或无线电广播信号组合的广播信号。\n[0032] 广播接收模块111还被配置成接收从各种类型广播系统发送的广播信号。例如,这种广播系统包括地面数字多媒体广播(DMB-T)、卫星数字多媒体广播(DMB-S)、手持数字视频广播(DVB-H)系统、称为媒体单一前向链路( )的数据广播系统和地面综\n合业务数字广播(ISDB-T)等。接收多播信号也是有可能的。此外,由广播接收模块111接收的数据可被存储在诸如存储器160的合适设备中。\n[0033] 无线通信单元110还包括移动通信模块112,它向一个或多个网络实体(例如基站、节点-B)发送无线信号或从其接收无线信号。这些信号可表示音频、视频、多媒体、控制信令和数据等。\n[0034] 还包括的是无线因特网模块113,它支持移动终端的因特网接入。该模块113可内置或外置地耦合到终端上。无线通信单元110还包括短距离通信模块114,其有助于相对较短距离的通信。实现该模块的合适技术包括例如在网络技术中通常称为蓝牙和ZigBee的射频标识(RFID)、红外数据关联(IrDA)以及超宽带(UWB),谨此略举几例。\n[0035] 定位模块115也被包括在无线通信单元110中,并标识或以其它方式获得移动终端100的位置。该定位模块115可用与相关联的卫星、网络组件及其组合协作的全球定位系统(GPS)组件实现。\n[0036] 此外,如图1所示,移动终端100还包括音频/视频(A/V)输入单元120,它向移动终端100提供音频或视频信号。如图所示,A/V输入单元120包括相机121和话筒122。\n相机121接收并处理静止图片或视频的图像帧。\n[0037] 此外,在便携式设备处于诸如电话呼叫模式、记录模式和语音识别模式之类的特定模式下时,话筒122接收外部音频信号。所接收的音频信号然后被处理并转换成数字数据。同样,该便携式设备,尤其是A/V输入单元120,通常包括用于去除在接收外部音频信号过程中生成的噪声的混杂噪声去除算法。此外,由A/V输入单元120生成的数据可存储在存储器160中、由输出单元150使用、或者经由通信单元110的一个或多个模块发送。如果需要的话,可使用两个或更多话筒和/或相机。\n[0038] 移动终端100还包括用户输入单元130,它响应于用户对一个或多个关联输入设备的操纵而生成输入数据。这种设备的示例包括键盘、按键开关、触摸板(例如静态压力/电容)、转动轮和转动开关。具体示例是用户输入单元130被配置成与触摸屏显示器协作的触摸板的终端,这将在以下更详细描述。\n[0039] 感测单元140也被包括在移动终端100中,并提供对移动终端100的各个方面的状态测量。例如,感测单元140可检测移动终端100的开/关状态、移动终端100的组件(例如显示器和键区)的相对定位、移动终端100或移动终端100的组件的位置变化、用户与移动终端100接触与否、移动终端100的取向或加速/减速等。\n[0040] 作为示例,当移动终端100是滑盖型移动终端时,感测单元140可感测移动终端\n100的滑动部分是打开还是关闭。其它示例包括感测单元140感测电源190是否提供功率、接口单元170和外部设备之间是否存在耦合或其它连接。\n[0041] 此外,接口单元170往往实现成将移动终端与外部设备耦合。典型的外部设备包括有线/无线头戴受话机、外部充电器、电源、用于存储数据(例如音频、视频、图片等)的存储设备、耳机和话筒等。此外,接口单元170可用有线/无线数据端口、卡插槽(例如,用于耦合到储存卡、客户识别模块(SIM)卡、用户识别模块(UIM)卡、可移动用户识别模块(RUIM)卡等)、音频输入/输出端口和视频输入/输出端口。\n[0042] 输出单元150通常包括支持移动终端100输出要求的各种组件。移动终端100还包括显示器151,它以可视方式显示与移动终端100相关联的信息。例如,如果移动终端\n100运行于电话呼叫模式,则显示器151通常提供包括与呼出、进行和终止电话呼叫相关联的信息的用户界面或图形用户界面。作为另一示例,如果移动终端100处于视频呼叫模式或照相模式下,则显示器151可附加地或替代地显示与这些模式相关联的图像。\n[0043] 此外,显示器151较佳地还包括与诸如触摸板之类的输入设备协同工作的触摸屏。该配置允许显示器151同时充当输出设备和输入设备。此外,显示器151可用包括例如液晶显示器(LCD)、薄膜晶体管液晶显示器(TFT-LCD)、有机发光二极管显示器(OLED)、柔性显示器和三维显示器的显示技术实现。\n[0044] 移动终端100还可包括一个或多个这样的显示器。双显示器实施例的示例是一个显示器被配置成内部显示器(当终端处于打开位置时可以查看)以及第二显示器被配置成外部显示器(在打开和关闭位置都可以查看)。\n[0045] 图1还示出具有支持移动终端100的音频输出需要的音频输出模块152的输出单元150。音频输出模块152通常用一个或多个扬声器、蜂鸣器、其它音频产生设备及其组合来实现。\n[0046] 此外,音频输出模块152可在包括呼叫接收模式、呼叫进行模式、记录模式、语音识别模式和广播接收模式在内的各种模式中运行。在运行过程中,音频输出模块152输出与特定功能(例如,呼叫接收、消息接收和差错)相关的音频。\n[0047] 此外,图中的输出单元150还具有用于发出信号或以其它方式标识发生了与移动终端100相关联的特定事件的警报器153。典型事件包括收到呼叫、收到消息和收到用户输入。这种输出的示例包括向用户提供触觉感知(例如振动)。例如,警报器153可被配置成响应于移动终端100接收到呼叫或消息而振动。\n[0048] 作为另一示例,可由警报器153响应于在移动终端100处收到用户输入而提供振动,因而提供一种触觉反馈机制。另外,由输出单元150的组件提供的各种输出可独立实现,或者这种输出可用这些组件的任意组合实现。\n[0049] 此外,存储器160一般被用于存储各种类型的数据以支持移动终端100的处理、控制和存储需要。这些数据的示例包括在移动终端100上操作的应用程序的程序指令、呼叫历史、联系人数据、电话簿数据、消息、图片、视频等。\n[0050] 此外,在图1中示出的存储器160可用任何类型(或组合)的合适易失性和非易失性存储器或存储设备来实现,包括随机存取存储器(RAM)、静态随机存取存储器(SRAM)、电可擦可编程只读存储器(EEPROM)、可擦可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁性存储器、闪存、磁盘或光盘、卡式存储器、或其它类似存储器或数据存储设备。\n[0051] 终端100还包括控制器180,它通常控制移动终端100的总体操作。例如,控制器进行与语音呼叫、数据通信、即时消息通信、视频呼叫、相机操作和记录操作相关联的控制和处理。如图1所示,控制器180可包括提供多媒体回放功能的多媒体模块181。多媒体模块181可被配置成控制器180的一部分,或者该模块可被实现为独立组件。\n[0052] 此外,电源190提供便携式设备的各个组件所需的电力。所提供电力可以是内部电力、外部电力或其组合。\n[0053] 接下来,图2是根据本发明的实施例的移动终端100的前侧视图。如图2所示,移动终端100包括配置成与第二机身205滑动配合的第一机身200。图1中的用户输入单元\n130可包括诸如功能键210之类的第一输入单元和诸如键区215之类的第二输入单元以及诸如侧键245之类的第三输入单元。\n[0054] 功能键210与第一机身200相关联,而键区215与第二机身205相关联。键区包括使用户能够呼出电话、准备文本或多媒体消息、或以其它方式操作移动终端100的各种键(例如数字、字符和符号)。\n[0055] 此外,第一机身200相对于第二机身205在打开和关闭位置之间滑动。在关闭位置时,第一机身200以这种方式在第二机身205上定位:键区215基本上或完全被第一机身\n200遮蔽。在打开位置时,用户访问键区215以及显示器151和功能键210成为可能。功能键方便用户输入诸如开始、停止和滚动的命令。\n[0056] 此外,移动终端100可在待机模式(例如,能够接收呼叫或消息、接收和响应网络控制信令)或活动呼叫模式下工作。通常,移动终端100在处于关闭位置时在待机模式下运行,而在打开位置时在活动模式下运行。然而,该模式配置可按要求或需要更改。\n[0057] 此外,第一机身200由第一外壳220和第二外壳225形成,而第二机身205由第一外壳230和第二外壳235形成。各第一和第二外壳通常由诸如注入成型塑料之类的适当刚性(ridge)材料来形成,或者用诸如不锈钢(STS)和钛(Ti)的金属材料形成。\n[0058] 如果需要,可在第一和第二机身200、205之一或两者的第一和第二外壳之间设置一个或多个中间外壳。通常将第一和第二机身200、205的大小调整成可容纳用于支持移动终端100的操作的电子组件。\n[0059] 第一机身200还包括相机121和被配置成相对于显示器151定位的扬声器的音频输出单元152。相机121还可以这种方式构成:它可相对于第一机身200选择性地定位(例如,转动、旋转等)。\n[0060] 此外,功能键210靠近显示器151的下侧定位。如上所述,显示器151被实现为LCD或OLED。显示器151还可被配置成具有响应于用户接触(例如,手指、输入笔等)触摸屏而生成信号的底层触摸板的触摸屏。\n[0061] 第二机身205还包括与键区215相邻定位的话筒122和侧键245,该侧键245是沿第二机身205的侧面定位的一类用户输入单元。较佳地,侧键245可被配置成热键,使得侧键245与移动终端100的特定功能相关联。如图所示,接口单元170与侧键245相邻定位,而电池形式的电源190位于第二机身205的下部。\n[0062] 图3是图2所示移动终端的后侧视图。如图3所示,第二机身205包括相机121、以及相关联的闪光灯250和反射镜255。闪光灯250结合第二机身205的相机121操作,反射镜255用于帮助用户在自拍模式中定位相机121。此外,第二机身205的相机121朝向与图2所示的第一机身200的相机121所朝向的方向相反的方向。\n[0063] 此外,第一和第二机身的相机121各自可具有相同或不同的能力。例如,在一实施例中,第一机身200的相机121以比第二机身205的相机121相对较低的分辨率操作。这一安排在例如其中反向链路带宽能力受到限制的视频会议通话期间十分有效。此外,第二机身205(图3)的相机的相对较高分辨率对获取较高质量图片以备后续使用而言十分有用。\n[0064] 第二机身205还包括配置成位于第二机身205上侧的扬声器的音频输出模块152。\n第一和第二机身200、205的音频输出模块还可协作提供立体声输出。此外,这些音频输出模块的任意一个或两者可被配置成充当扬声器电话。\n[0065] 终端100还包括广播信号接收天线260,它位于第二机身205的上端。天线260与广播接收模块111(图1)协作运行。如果需要的话,天线260可以是固定的,或是配置成缩回第二机身205中。此外,第一机身200的背侧包括与位于第二机身205前侧的相应滑动模块可滑动地耦合的滑动模块265。\n[0066] 此外,第一和第二机身200、205的各种组件的所示安排可按要求和需要进行更改。通常,一个机身的组件中的一部分或全部能够可替换地在另一机身上实现。此外,这些组件的位置和相对定位可以定位在不同于代表性附图所示的位置上。\n[0067] 此外,图1-3的移动终端100可被配置成在经由帧或分组发送数据的通信系统中操作,包括无线、有线通信系统和基于卫星的通信系统。这些通信系统使用不同的空中接口和/或物理层。\n[0068] 由通信系统使用的这种空中接口的示例包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动电信系统(UMTS)、UMTS的长期演进(LTE)以及全球移动通信系统(GSM)。仅作为非限制性示例,进一步的描述将涉及CDMA通信系统,但是这些教导同样地适用于其它系统类型。\n[0069] 接下来,图4示出具有多个移动终端100、多个基站270、多个基站控制器(BSC)275和移动交换中心(MSC)280的CDMA无线通信系统。\n[0070] MSC 280配置成与公共交换电话网(PSTN)290接口,且MSC 280还被配置成与BSC \n275接口。此外,BSC 275经由回程线路耦合到基站270。此外,回程线路可根据若干公知接口中的任一种来配置,包括例如E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL、或xDSL。此外,系统可包括两个以上的BSC 275。\n[0071] 每个基站270还可包括一个或多个扇区,每个扇区具有全向天线或指向径向远离基站270的特定方向的天线。或者,每个扇区可包括用于分集接收的两个天线。此外,每个基站270可被配置成支持多个频率分配,并且各个频率分配具有特定频谱(例如,1.25MHz、\n5MHz)。\n[0072] 扇区和频率分配的交集被称为CDMA信道。基站270还可被称为基站收发机子系统(BTS)。在一些情形中,术语“基站”可用于通指BSC 275、以及一个或多个基站270。\n[0073] 基站还可表示成“小区站点(cell site)”。或者,给定基站270的各个扇区可被称为小区站点。另外,地面数字多媒体广播(DMB)发射机295被示为向工作在该系统中的移动终端100广播。\n[0074] 此外,移动终端100的广播接收模块111(图1)通常被配置成接收由DMB发射机\n295发射的广播信号。如上所述,可对其它类型的广播和多播信令实现类似的安排。\n[0075] 图4还示出了若干全球定位系统(GPS)卫星300。这些卫星有助于定位一部分或者所有移动终端100的位置。在图4中示出了两个卫星,但是,可使用更多或更少的卫星来获取定位信息。\n[0076] 另外,移动终端100的定位模块115(图1)通常被配置成与卫星300协作以获得期望的位置信息。然而,或者也可以实现其它类型的位置检测技术,比如可添加到或替代GPS定位技术的定位技术。一部分的或者全部的GPS卫星300可选择性地或附加地配置成提供卫星DMB传送。\n[0077] 此外,在无线通信系统的典型操作期间,基站270从各个移动终端100接收多组反向链路信号。移动终端100进行呼叫、发消息、以及其它通信。\n[0078] 另外,在基站270内处理由给定基站270接收到的每个反向链路信号,且所得数据被转发到相关联的BSC 275。BSC提供呼叫资源分配以及包括基站270之间的软切换的移动性管理功能。\n[0079] 此外,BSC 275还将收到的数据路由至MSC 280,MSC 280提供附加路由服务用于与PSTN 290接口。类似地,PSTN与MSC 280接口,并且MSC 280与BSC 275接口。BSC 275还控制基站270,向移动终端100发送多组前向链路信号。\n[0080] 在以下的描述中,参照各实施例解释适用于以上配置的移动终端100的控制方法。然而,以下的实施例可单独实现或通过其组合实现。此外,在以下的描述中,假设显示器151包括触摸屏。另外,触摸屏或其屏幕可由附图标记‘400’指示。\n[0081] 图5是根据本发明的实施例的控制移动终端的方法的框图。在该描述中还将参考图1。如图所示,控制器180确定何时激活移动终端的语音识别功能(S101)。当语音识别功能被激活时(S101中的是),控制器180接收由用户输入的语音指令(在下文中称为“语音指令”)(S102)。然后,当控制器180识别出语音指令已由用户输入(S102中的是)时,控制器180确定所识别语音指令的含义(S103)。\n[0082] 此外,为了激活本实施例的语音识别功能,用户可选择具体按钮或触摸移动终端中所包括的触摸屏的具体部分。使用户物理激活语音识别功能是特别有利的,因为用户更能意识到他们将要使用语音命令来控制终端。即,因为用户必需首先执行对终端的物理操纵,所以他或她直观地意识到他们将把语音命令或指令输入至终端,因此可说得更清楚或更慢从而激活具体功能。\n[0083] 因而,例如,因为用户说得更清楚或更慢,所以准确识别语音指令的概率增加。即,语音识别功能的激活通过终端上按钮的物理操纵来执行,而不是通过对终端讲话来激活语音识别功能。\n[0084] 此外,控制器180可基于用户触摸具体按钮或触摸屏的一部分达多少次、用户触摸具体按钮或触摸屏的一部分有多长时间等来开始或终止语音识别功能的激活。用户还可设置控制器180要如何利用由本发明提供的适当菜单选项来激活语音识别功能。例如,用户可选择终端上的菜单选项,包括1)基于语音激活按钮被选择的次数X设置语音识别的激活,2)基于语音激活按钮被选择的时间量X设置语音识别的激活,3)当按钮X和Y被选择时设置语音识别的激活等。用户于是可输入X和Y的值,以便于可变地设置控制器180如何确定语音激活功能被激活。因此,根据本发明的实施例,用户积极地参与其移动终端的语音识别功能,这增加了控制器180确定与用户语音指令相对应的正确功能的概率,这也使得用户能根据他或她的需要修改语音激活功能。\n[0085] 控制器180还可在指定的按钮被触摸或选择的同时维持语音识别功能的激活状态,并在指定的按钮被放开时停止语音识别功能。或者,控制器180可在指定按钮被触摸或选择后将语音识别功能的激活维持预定的时间段,并在预定时间段结束时停止或终止语音识别功能。在又一个实施例中,控制器180可将所接收的语音指令存储在存储器160中,同时将语音识别功能维持为激活状态。\n[0086] 此外,控制器180可在语音识别功能被终止后立即确定语音指令的含义,或可在用户输入语音指令时同时确定语音指令的含义。此外,为了确定语音指令的含义,控制器\n180可分析输入语音指令中使用的词、关键词、句子结构等,并确定语音指令的内容或含义。\n[0087] 此外,控制器180还可在存储器160的数据库中存储与设置在移动终端中的功能、服务或菜单有关的信息,以便于确定语音指令的含义。此外,为了提高准确检测用户语音指令的概率,可利用学习或人工智能法更新数据库中存储的信息。先前在移动终端上执行的操作还可被存储在数据库中。例如,用户可打开其终端,并且在大多数时候在执行任何其它操作之前检查其电子邮件。\n[0088] 因此,控制器180可使用其先前的操作来增加确定用于语音指令的含义的概率。\n用户在首先打开或开启其移动终端时还可输入相同的语音指令。这些先前的操作还可与输入语音指令存储在一起,并由控制器180用来确定输入指令的含义。\n[0089] 因而,终端上执行的先前操作包括终端的激活状态(例如,在待机模式期间、电话呼叫期间、视频电话呼叫期间、电子邮件会话期间、即时消息会话期间、关闭终端等),还包括先前由用户输入的指令。例如,为了听音乐,用户可在先前关闭终端,然后输入指令“播放我的音乐”。控制器180然后可利用移动终端的状态(即,处于关闭状态)来帮助确定用户输入的语音指令是什么。\n[0090] 返回到图5,当控制器180利用数据库中的信息确定语音指令的含义时,控制器\n180输出相应的结果值(S104)。即,结果值可包括用于执行与所识别的语音指令对应的功能或用于控制具体元件的控制信号。结果值还可对应于用于显示与所识别的指令有关的一个或多个菜单的数据信息。\n[0091] 此外,用户可输入作为具体菜单的准确指定的语音指令(例如,图像捕捉、语音呼叫、消息传送等)或利用自然语言(例如,显示照片、省电等)。同样,自然语言指令可以或可以不包括与具体菜单有关的准确指定。\n[0092] 此外,自然语言是一般由日常生活中的人使用的话语,它与人工语言(它是人工创造的)不同,并可利用自然语言处理算法来处理。另外,在图5中,控制器180然后确定它是否可识别由用户输入的语音指令(S105)。\n[0093] 例如,控制器180可确定它是否能以高于具体阈值(例如80%)的概率识别语音指令。如果控制器180不能确定满足具体阈值的语音指令的含义,则控制器180可执行附加的差错处理(S107),然后重复步骤S103至S105。\n[0094] 然而,如果控制器180可识别满足具体阈值的语音指令,则控制器180可有利地显示满足具体阈值的多个菜单(例如,具有高于80%的具体识别率或更高)(S106)。用户可在视觉上看到所显示的菜单,然后选择所显示菜单之一。\n[0095] 该特征是特别有利的,因为用户再次积极地参与到语音识别功能之中。更具体地,与控制器180不能清楚确定语音指令的含义而向用户显示或输出消息不同,控制器180有利地输出准确概率高于具体阈值(例如80%)的多个菜单。例如,如果用户输入语音指令“节省电池”,但控制器180只能唯一地确定指令“节省”(例如,由于背景噪声、不良接收等),则控制器180可显示与关键词“节省”有关的具体菜单或选项。即,控制器180可显示照片菜单、电池菜单和电子邮件菜单,因为这些菜单各自包括“节省”功能部件。因此,用户就可从多个所显示的菜单中选择适当菜单。\n[0096] 此外,如上所述,控制器180可在确定输入语音指令的含义时使用终端先前的操作。控制器180还可使用终端的物理状态来帮助确定输入语音指令的含义。例如,在判定输入语音指令的含义时,控制器180可有利地使用关于电池状态的信息(例如,低电池状态)。\n[0097] 此外,作为接收用户确认的类型,可使用消息、语音或菜单的显示位置或形式(形状和大小),且响应类型可以是用户语音、具体按钮或触摸输入。另外,如上所述,如果输入语音指令的识别率低于具体阈值,则控制器180可执行差错处理操作(S107)。\n[0098] 另外,在差错处理操作期间,控制器180可从用户处接收另外的语音指令,或者如上所讨论地,可显示具有高于一定识别率或概率的多个菜单。控制器180还确定高于具体概率的所识别功能或菜单的数量。如果所识别的具有高于一定识别率的功能或菜单小于具体数量(例如,如果仅有一个功能或一个菜单),则控制器180自动执行单个功能或菜单。\n[0099] 接下来,图6(a)至6(c)是示出根据本发明的实施例的用户激活移动终端的语音识别功能的显示屏。另外,如上所述,本发明有利地使用户能基于用户的物理操纵确定何时开始语音激活功能。因而,用户更清楚其环境(例如,他是否在安静的环境中讲话)、其语音的音调或音量、他使用的自然语音或其它类型的语言等。因此,用户有可能在输入语音指令时更加仔细,这导致控制器180准确确定语音指令的含义的概率更高。\n[0100] 此外,使用户能通过触摸或选择终端上的按钮来手动激活语音识别功能的另一个优点在于降低了电池电量。即,语音识别功能消耗了终端的多个资源,且当语音识别功能的激活状态在待机状态(或空闲状态)下连续操作时,终端的总功率被连续地消耗。\n[0101] 更具体地,当控制器180被配置成经由用户向终端讲话(而不是用户选择具体按钮)来接收用于激活语音识别功能的激活信号时,控制器180必须连续地在活动状态中操作语音识别功能,并等待用户开始讲话(这将指示语音识别开始)。这种等待用户语音输入以开始语音识别功能的连续操作连续地减少终端的可用功率。\n[0102] 因此,为了防止移动终端的功率消耗和资源消耗,控制器180有利地控制语音识别功能的开始和终止。在一个例子中,如图6(a)所示,移动终端的用户输入单元130包括显示单元151上的软按钮350,用户可触摸该软按钮350来启动或停止语音识别功能。另外,软按钮可具有按钮形状,或可以是具体形状的图标。软按钮350还可用例如设置在终端的一侧上的硬按钮351来替换,如图6(a)所示。\n[0103] 在另一个例子中,如图6(b)所示,可将显示单元151的任意部分用于激活和停用语音识别功能,而不在显示单元151上显示按钮或图标。在又一个例子中,如图6(c)所示,可经由移动终端的话筒122输入具体声音,以控制语音识别功能的激活和终止。\n[0104] 更详细地,具体声音可以是具有高于具体声级的撞击声,诸如用户拍手的声音。控制器180然后利用确定通过话筒122输入的声级的算法或电路来检测该撞击声。即,用于检测撞击声的算法或电路被配置成检测高于预先设定的具体声级的声音,且与语音识别功能相比不消耗移动终端的大量资源或电能。\n[0105] 用户还可有利地设置哪些具体的撞击声用于激活语音识别功能。例如,用户可选择由本发明的终端提供的适当菜单选项,然后拍手两次或三次以通知控制器180具体次数的拍手声音将用于激活语音识别功能。用户还可设置任何其它的声音作为用于激活语音识别功能的声音。\n[0106] 此外,控制器180可以多种模式驱动语音识别功能。例如,控制器180可按其中高于具体级别的声音激活语音识别功能的第一模式和其中接收语音指令并确定其内容或含义的第二模式可分辨地驱动语音识别功能。即,如果高于具体级别的声音在第一模式中检测到,则控制器180执行第二模式来激活语音指令识别功能。\n[0107] 此外,在另一个实施例中,控制器180在从用户处接收肢体信息时开始激活语音识别功能。更具体地,肢体信息包括手势信号或用户的姿势。可将感测单元140用于检测用户的肢体信息。在另一个实施例中,控制器180在利用无线设备接收短距离或遥控区域的无线电信号后开始激活语音识别功能。\n[0108] 此外,控制器180可经由无线通信单元110接收无线电信号,并通过感测单元140接收手势信号或用户的姿势。在这些实施例中,用于接收激活语音识别功能的信号的无线通信单元110、用户输入单元130以及感测单元140可被统称为激活信号输入单元。\n[0109] 此外,如上所述,为了降低移动终端的功耗和资源消耗,控制器180在预定时间段后、在从用户接收终止信号后等终止或停止语音识别功能。为此目的,终止信号能以与用于开始激活语音识别功能的方式相同或类似的方式对应于所触摸或按下的按钮、触摸触摸屏的具体部分、撞击声、无线电信号或来自用户的肢体信息。\n[0110] 更具体地,控制器180可开始语音识别功能的激活,在具体的时间段期间维持语音识别功能的激活状态,并在具体时间段结束时自动终止语音识别功能的激活状态。或者,控制器180可在按钮或触摸被连续输入时维持语音识别功能的激活状态,并在放开输入时终止语音识别功能的激活状态。在另一个例子中,控制器180可在用户不向终端讲话的时间大于具体时间段时终止语音识别功能。\n[0111] 接下来,图7A是示出根据本发明的另一个实施例的语音识别方法的流程图。在该描述中还将参考图1。如图7A所示,当输入语音识别功能(S201)时,控制器180在存储器\n160中存储输入语音指令(S202),并根据具体语音识别算法处理语音指令(S203)。\n[0112] 然后,根据语音识别算法,控制器180将输入语音指令转换成文本信息,并将经转换的文本信息存储在存储器160的任意区域中(S204)。之后,控制器180处理文本信息以确定指令的含义。此外,控制器180较佳地在语音指令被输入的同时确定语音指令的含义。\n[0113] 然而,如上所述,控制器180还可在用户完成语音指令的输入之后确定语音指令的含义。例如,如果用户在预先设定的具体时间段内不输入语音指令,则控制器180可确定用户已经完成输入语音指令,然后开始确定语音指令的含义的过程。\n[0114] 接下来,如图7A所示,控制器180检测包括在文本信息中的具体词或关键词,以确定语音指令的含义(S205),并将所检测的词或关键词与关于移动终端的具体数据库中所存储的各种功能和菜单的信息进行比较(S206)。此外,当相同或类似的词或关键词被存储在数据库中时,语音指令的识别率可由对应的词或关键词的数量来确定(S207)。\n[0115] 此外,用于确定识别率的信息可不限于包括在语音指令中的词或关键词的数量的信息。即,用于确定识别率的值可针对每一个关键词不同地设定,从而即使词或关键词的数量很小,识别率也可根据具有高识别率的关键词而改变。\n[0116] 同样,语音识别率是指示所识别的语音指令是否准确的信息。更具体地,如果具体菜单的名称被准确输入,则可获得100%的识别率。然而,如果以自然语言接收语音指令,则无意义的词可被包括在语音指令中,且每一个用户对相同的词读音不同。所以实际上难以获得100%的识别率。\n[0117] 因此,本发明的实施例有利地将高于具体值(例如80%)的识别率视为准确。因此,如果有几种含义以类似的识别率确定(即,识别率是类似的,但语音指令可被翻译成具有各种含义),则控制器180显示对应于高于预定阈值的识别率的多个可执行菜单,使得用户可选择所显示菜单之一(S208)。\n[0118] 此外,控制器180还可按优先级的顺序显示菜单,且该顺序从具有最高识别率的菜单开始。例如,如图7B所示,具有最高识别率的菜单图标可显示在显示屏410的中心部分。或者,如图7B所示,具有最高识别率的菜单图标可在显示屏420上显示为较大、较暗或突出显示。所显示的最高识别率的菜单还可以闪烁的方式显示。\n[0119] 此外,为了提高识别率,如果菜单被用户频繁选择,则控制器180可学习并记住选择的次数,并使用该学习到的信息来改变关于具体菜单的识别率。因此,识别率可关于具有类似或相同的发音或内容的语音指令输入来改变。\n[0120] 接下来,图7C根据本发明的一个实施例的用于说明语音识别方法的显示屏的概观。如图所示,当用户以自然语言输入语音指令“我想看我的图片”时,控制器180从形成语音指令的句子中检测有意义的词或关键词(例如,看、图片),并将词与存储在移动终端的数据库中的信息进行比较。\n[0121] 此外,所检测的词或关键词是否是有意义的词可通过一部分语音来确定。或者,可将具体的预先设定的关键词检测为有意义的词。控制器180于是在数据库中搜索与有意义的词或关键词对应的信息。\n[0122] 此外,数据库可包括与移动终端的各种菜单或功能有关的多个关键词信息。例如,作为与“相册”对应的关键词信息,除准确的“相册”之外,可相应地存储诸如相机菜单的下级菜单、“照片”、“视频”、“影集”等多个关键词信息。\n[0123] 如图7C中的显示屏510所示,当没有关于与语音指令等同的菜单或功能的信息时,控制器180显示多个菜单,每一个菜单都具有高于具体值的识别率。如以上所讨论的,控制器180将具有最高识别率的菜单图标521显示为比其它所显示的项大或暗。\n[0124] 此外,图7C中的显示屏520示出在只有一个菜单具有高于具体值的识别率时,控制器180自动执行识别率高于具体值的相应菜单功能。此外,控制器180可输出其含义被确定为文本或其它类消息的语音指令,或通过语音消息输出。\n[0125] 图7D是根据本发明的又一个实施例的说明语音识别方法的显示屏的概观。在该实施例中,用户首先通过触摸显示屏610激活语音识别功能,然后以自然语言输入语音指令“启用电池省电”,如显示屏620所示。控制器180然后在形成语音指令的句子中检测有意义的词或关键词(例如,电池、省电),并该词与存储在数据库中的信息进行比较以确定其含义。\n[0126] 然而,在该实施例中,因为没有准确对应于语音指令的菜单,所以控制器180显示与降低电池功耗的功能有关的多个菜单(例如,背景图像、背光、待机屏幕等),如显示屏\n630所示。\n[0127] 此外,如以上所讨论的,可根据高识别率的顺序有区别地显示或突出显示多个菜单的大小、位置、颜色和对比度中的至少一个。例如,具有高用户选择的菜单的识别率可显示成与其它菜单有区别。\n[0128] 接下来,图8是示出根据本发明的一个实施例的用于语音识别的数据库的框图。\n数据库包括所存储的由控制器180用于确定语音指令的含义的信息。因此,多个数据库可根据每一个信息的特性来配置。此外,根据每一个信息的特性配置的每一个数据库可在控制器180的控制下通过连续的学习过程更新。\n[0129] 此外,数据库的学习过程指的是将用户发出的语音与相应的词匹配。例如,如果用户发音为“十五”但控制器180将该词识别为“五十”,则用户可将“五十”纠正为“十五”,使得控制器180将后来发出的相同发音识别为“十五”。\n[0130] 因此,通过该学习过程,多个语音信息可与数据库的每个信息匹配。例如,数据库可包括:第一数据库161,用于存储语音信息,使通过话筒的用户语音输入能根据格式、音节或词素来识别;第二数据库162,用于存储信息,使控制器180能基于所识别的语音信息确定语音指令的整体含义;第三数据库163,用于存储与执行移动终端的功能或服务的菜单有关的信息;以及第四数据库164,用于存储要从移动终端输出的针对用户关于所确定语音指令的含义的确认的消息或语音消息。\n[0131] 此外,每一个数据库可存储语言(发音)信息或格式、音节、词素、词、关键词或句子信息。因此,控制器180可通过使用多个数据库161至164中的至少一个确定语音识别操作和语音指令的含义,并执行与对应于语音指令的所确定含义的功能或服务有关的菜单。\n[0132] 接下来,图9是根据本发明的一个实施例的显示信息以通知用户移动终端中正在执行所识别的语音指令的显示屏的概观。更具体地,当控制器180识别语音指令或确定语音指令的含义时,控制器180输出相应的结果值。结果值可以是用于执行移动终端的具体功能的控制信号,与所识别指令有关的菜单信息,或在执行功能时输出的数据信息。在图9中,控制器180输出信息500,通知用户所输入的语音指令正在被识别。\n[0133] 此外,上述的实施例指的是识别用户的语音指令。然而,本发明还适用于用户在语音指令正在被识别时执行附加的输入功能。例如,语音识别和触摸输入、语音识别和按钮输入、或语音识别或触摸/按钮输入可同时执行。\n[0134] 此外,控制器180可防止语音识别功能在具体模式或菜单或具体操作状态下执行。另外,音频信息(例如,语音通知或引导信息)或指示语音识别功能正在被应用的视频信息(例如,图9中的指示符500)可在语音识别模式、菜单或操作状态下显示。同样,可将正在应用语音识别功能的信息通过输出帮助信息来提供给用户。\n[0135] 此外,以上各个实施例可使用例如计算机软件、硬件、或其某种组合而在计算机可读介质中实现。对于硬件实现,上述实施例可在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计成执行本文所述功能的其它电子单元、或其选择性组合内实现。\n[0136] 对于软件实现,本文所述的实施例可通过诸如程序和函数的独立软件模块实现,每个软件模块实现本文所述的功能和操作中的一个或多个。软件代码可通过以任何合适编程语言编写的软件应用程序实现,并且可被存储在存储器(例如,存储器160)中,而且可由控制器或处理器(例如,控制器180)执行。\n[0137] 另外,移动终端100可以以各种不同配置实现。这些配置的示例包括翻盖式、滑盖型、直板型、旋转型、回转型及其组合。\n[0138] 由于示例性实施例可按几种形式实现,而不背离其特性,所以还应理解,上述的实施例不会被上述描述的任何细节所限制,除非另外指出,而应广泛地解释为在所附权利要求定义的范围中。因此,落入权利要求的范围内的各种变化和修改或该范围的等价技术方案因此由所附权利要求所包含。
法律信息
- 2012-12-12
- 2009-12-09
- 2009-10-14
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2005-12-28
|
2005-06-24
| | |
2
| | 暂无 |
2001-01-30
| | |
3
| |
2005-07-06
|
2004-12-24
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |