一种语音识别方法和系统

发明专利有效专利

申请号：
CN201310665238.1
IPC分类号：G10L15/30;G10L15/26;H04L12/58
申请日期：
2013-12-10
申请人：
阿里巴巴集团控股有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种语音识别方法和系统
申请号	CN201310665238.1	申请日期	2013-12-10
法律状态	授权	申报国家	中国
公开/公告日	2015-06-10	公开/公告号	CN104700836A
优先权	暂无	优先权号	暂无
主分类号	G10L15/30 ? IPC结构图谱： G 物理 G0 仪器 G10 乐器；声学 G10L 语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码〔4〕 G10L15/00 语音识别（G10L 17/00优先）〔7，2013.01〕 G10L15/28 语音识别系统的结构细节〔7，2013.01〕 G10L15/30 分布式识别，例如：客户端－服务器系统，为移动电话或网络应用〔2013.01〕	IPC分类号	G;1;0;L;1;5;/;3;0;;;G;1;0;L;1;5;/;2;6;;;H;0;4;L;1;2;/;5;8查看分类表>
申请人	阿里巴巴集团控股有限公司	申请人地址	英属开曼群岛大开曼资本大厦一座四层847号邮箱变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	阿里巴巴集团控股有限公司	当前权利人	阿里巴巴集团控股有限公司
发明人	翟鲁峰
代理机构	北京国昊天诚知识产权代理有限公司	代理人	许志勇

摘要

本申请涉及一种语音识别方法和系统。该方法包括：接收用户的语音识别请求；语音识别请求中包括预先分配的唯一标识语音信息的语音ID及将语音转换为文字的语音识别命令；根据该语音ID找到对应的语音信息并根据该语音识别命令对该语音信息进行转换而获得对应所述语音信息的文字信息；将获得的文字信息作为识别结果返回给发出语音识别请求的用户。本申请的方法和系统改进即时通信中语音消息功能的用户交互，提高即时通信中语音消息功能的用户交互处理速度，节省网络资源，减少网络数据流量，从而用户可以在不方便收听语音消息的场合能及时获得信息，提升语音识别处理速度、提高识别处理效率、节省网络资源，为用户提供更好的用户体验。

一种语音识别方法和系统\n技术领域\n[0001] 本申请涉及通信领域，更具体地涉及一种语音识别方法和系统。\n背景技术\n[0002] 随着通信技术的发展，智能手机的普及，各种网络通讯工具，比如MSN、腾讯QQ、微信、来往等通讯产品、逐步成为大众沟通的主要工具之一。其中，语音消息由于其操作和传输功能的便捷性等特点带来的沟通快、操作方便，而广受欢迎。在目前的手机、PC、PAD、PDA、MID等移动终端或网络终端(互联网设备)中，一般可以通过网络通信工具(APP)提供语音输入、输出功能。\n[0003] 现有技术中，对于网络通信工具，比如即时通信工具，语音消息的输入输出过程包括：发送端将发送方用户发出的语音消息进行录音、并将该录音编码后发送到即时通信服务器IM-Server(IMS)，由该即时通信服务器IMS将发送来的录音编码推送到对应的接收端，从而在接收方用户收听语音消息时，接收端将接收到的该录音编码进行解码和播放。现有的即时聊天工具的语音消息功能只能是播放给用户，但语音的播放在没有耳机的情况下，会存在诸多问题，比如：1.不能保证私密性，如：涉及隐私的语音消息不适宜于在公众场合播放；2.影响周围其他人，如：会议中或阅览室播放语音不合适但又需要及时了解语音所传递的消息；3.在嘈杂的环境下影响清晰度，如：太嘈杂而难以听清楚语音所传递的消息内容。\n发明内容\n[0004] 基于现有技术中上述即时通信工具中语音消息传播交互所存在的缺陷，本申请的主要目的在于提供一种语音识别方法和系统，以解决改进即时通信中语音消息功能的用户交互的技术问题。进一步，还可以解决提高即时通信中语音消息功能的用户交互处理速度，以及节省网络资源，减少网络数据流量的技术问题。\n[0005] 为了解决上述技术问题，本申请提供一种语音识别方法，包括：接收用户的语音识别请求；其中，语音识别请求中包括预先分配的唯一标识语音信息的语音ID以及将语音转换为文字的语音识别命令；根据语音识别请求中的语音ID，查找到对应所述语音ID的语音信息；根据语音识别请求中的语音识别命令，对所述语音信息进行转换，以获得对应所述语音信息的文字信息；将获得的文字信息作为语音识别结果返回给发出语音识别请求的用户。\n[0006] 本申请还提供一种语音识别方法，包括：为接收的语音信息分配唯一的标识作为语音ID；根据所述语音信息进行语音识别，对所述语音信息进行转换，以获得对应所述语音信息的文字信息；根据接收的用户的语音识别请求中的语音ID，查找到对应所述语音ID的文字信息；将获得的文字信息作为语音识别结果返回给发出语音识别请求的用户。\n[0007] 另外，提供了实现方法的一种语音识别系统，包括：即时通信服务器IMS、接收端、发送端、以及所述IMS中设置的语音识别模块或与所述IMS连接的语音识别服务器/语音识别服务器集群；所述IMS为接收的来自发送端的语音信息分配唯一的标识作为语音ID，推送所述语音信息到接收端；当所述IMS接收来自接收端的用户对所述语音信息发起的语音识别请求时，提取语音识别请求中的对应所述语音信息的语音ID，查找到所述语音信息，并且，将所述语音识别请求中的语音识别命令和所述查找到的语音信息，提交给所述语音识别模块或所述语音识别服务器/语音识别服务器集群；语音识别模块或所述语音识别服务器/语音识别服务器集群，根据所述语音信息和语音识别命令进行语音识别，对所述语音信息进行转换，以获得对应所述语音信息的文字信息；所述IMS从语音识别模块或所述语音识别服务器/语音识别服务器集群得到所述文字信息，并将获得的文字信息作为语音识别结果返回给所述接收端。\n[0008] 本申请还提供一种语音识别系统，包括：即时通信服务器IMS、接收端、发送端、所述IMS中设置的语音识别模块或与所述IMS连接的语音识别服务器/语音识别服务器集群；\n所述IMS为接收的来自发送端的语音信息分配唯一的标识作为语音ID，推送所述语音信息给接收端，并且，将所述语音信息提交给所述语音识别模块或所述语音识别服务器/语音识别服务器集群；所述语音识别模块或所述语音识别服务器/语音识别服务器集群，根据所述语音信息进行语音识别，对所述语音信息进行转换，以获得对应所述语音信息的文字信息；\n当所述IMS或所述语音识别服务器/语音识别服务器集群接收来自接收端的用户对所述语音信息发起的语音识别请求时，提取语音识别请求中的对应所述语音信息的语音ID，根据所述语音ID，查找到对应所述语音ID的文字信息；所述IMS或所述语音识别服务器/语音识别服务器集群将获得的文字信息作为语音识别结果返回给所述接收端。\n[0009] 本申请还提供一种语音识别系统，包括：即时通信服务器IMS、接收端、发送端、与所述IMS连接的语音识别服务器/语音识别服务器集群；所述IMS为接收的来自发送端的语音信息分配唯一的标识作为语音ID，推送所述语音信息到接收端；所述语音识别服务器/语音识别服务器集群接收来自接收端的用户对所述语音信息发起的语音识别请求，提取语音识别请求中的对应所述语音信息的语音ID，发送到所述IMS；所述IMS根据所述语音ID查找到所述语音信息，提交给所述语音识别服务器/语音识别服务器集群；语音识别服务器/语音识别服务器集群，根据所述语音信息和语音识别请求中的语音识别命令，进行语音识别，对所述语音信息进行转换，以获得对应所述语音信息的文字信息；所述语音识别服务器/语音识别服务器集群将获得的文字信息作为语音识别结果返回给所述接收端。\n[0010] 与现有技术相比，根据本申请的技术方案具有以下有益效果：\n[0011] 本申请针对手机等网络终端、移动终端上的即时通信中具有的语音消息功能做了用户交互上的改进，利用语音识别方法，将语音转为文字，以便于用户浏览。从而，对语音消息进行语音识别后无需进行语音播放，用户可以在不方便收听语音消息的场合，满足用眼睛浏览语音信息的需求。进一步，浏览文字比听语音速度更快，更节省时间，便于用户在不方便收听语音消息的场合，能及时获得重要的消息。进一步，通过对即时通讯服务器上存储的语音消息直接进行语音识别处理，无需用户上传要识别的语音消息，加快了语音识别处理速度、提高了识别处理效率、节省了网络资源。进一步，改进用户交互中的展示输入方式，有助于迅速、反复响应展示请求，减轻服务器端处理负担，加快展示速度、提高效率，为用户提供更好的用户体验。\n附图说明\n[0012] 此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：\n[0013] 图1是根据本申请语音识别方法的一实施例的流程图；\n[0014] 图2是根据本申请的一实施例的接收端显示语音标记和文字信息的示意图；\n[0015] 图3是根据本申请的一实施例的服务器端语音转换成文字处理的流程图；\n[0016] 图4A-4B是根据本申请的一实施例的服务器端的结构示意图。\n具体实施方式\n[0017] 本申请的主要思想在于，服务器端根据来自接收端的语音识别请求中的语音ID，从通信服务器查找到对应的语音以提供给语音识别模块；语音识别模块对该语音进行文字识别以转换成文字，并将该文字结果返回到接收端，以展示该语音对应的文字给用户浏览。\n因此，本申请能利用服务器端的存储和高效率处理，实现复杂的语音识别、完成语音的文字转换，满足用眼睛浏览语音的需求，进而快速省时获取发送端传来的消息，并且无需用户上传要识别的语音，加快了语音识别处理速度、提高了识别处理效率、节省了网络资源。\n[0018] 为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。\n[0019] 在本申请中，网络通信工具例如：即时聊天工具，包括：可以安装在需要进行即时通信的一个或多个用户所使用的一个或多个终端设备上的客户端应用APP。用户利用该APP，可以连接、访问服务器端，并通过服务器端接收、转发来自客户端的文字、语音、请求等，实现一个或多个用户之间的即时通信和/或数据处理。\n[0020] 安装了即时通信工具的客户端APP的终端设备及其用户，下面统称客户端。\n[0021] 终端设备可以包括各种移动终端、网络终端等设备，如：手机、计算机/PC、ipod、平板电脑/Pad、个人数字助理PDA、移动互联网设备MID等。\n[0022] 使用终端设备的用户，可以在终端设备上运行即时通信工具客户端APP，发送和/或接收语音、文字，经服务器端实现即时通信。其中，语音包括语音消息、语音信息，文字包括文字消息、文字信息。\n[0023] 一个例子：发送方用户发出的语音，通过其使用的终端设备录音并编码，发送到服务器端，如：发送到即时通信服务器IMS，由服务器端(即时通信服务器IMS)存储并推送到接收方的用户使用的终端设备。以下，为便于描述，将发送信息的发送方客户端简称发送端，接收信息的接收方客户端简称接收端，发送和接收是相互的，即互为发送、接收。\n[0024] 下面，以即时聊天工具为例进行描述，具体参见图1所示根据本申请语音识别方法的一实施例的流程图。图1的实施例仅为一示例，本申请不应理解为限于此示例。\n[0025] 在步骤S110处，发送端获取语音消息，并将语音消息发送到服务器端。\n[0026] 发送端可以向接收端发送语音，需要通过服务器端接收和推送，由此，发送端可以录制要发送的语音消息，对录音进行编码，发送到服务器端。\n[0027] 例如：即时聊天工具使得客户端A、B通过(无线、移动、有线等)网络连接到服务器端，以实现客户端A、B之间的即时聊天过程中语音的收发。其中，如果聊天客户端A的用户希望向聊天客户端B的用户发送语音，则客户端A将其用户要传达给客户端B的语音录音。例如：客户端A的终端设备利用麦克等语音接收装置接收语音，将语音的模拟信号转换成数字信号，并将信号以二进制数字形式存储。对数字形式的语音可以进行编码和压缩处理，例如进行ARM、OPUS压缩编码等。并且，编码后的录音可以在客户端B上进行解码播放。\n[0028] 在步骤S120处，服务器端将接收到的语音消息推送到对应的接收端。\n[0029] 首先，语音消息(即录音编码)发送到服务器端，可以由服务器端接收、存储并为每个收到的语音消息，分配一个唯一的标识ID(身份标识)，可称为语音ID、语音消息(信息)ID。\n[0030] 例如：客户端A将编码后的语音的录音，向服务器端发送，如即时通信服务器IMS；\nIMS可以接收并存储录音对应的语音(二进制语音数据，例如“00011011”)；同时，IMS可以为该语音分配一个唯一的标识ID(语音ID)，以与其他语音区分，如：可以将语音对应的数字形式“00011011”分配ID“100”，以二进制字符串“10000011011”形式记录并存储。\n[0031] 然后，服务器端将接收到的录音推送到录音对应的语音所应传达到的接收端。接收端获得该录音对应的语音，进一步，还获得该语音的语音ID。\n[0032] 例如：由即时通信服务器IMS将收到的来自客户端A的录音推送到客户端B，即客户端A发出的该语音所要传送到的目标。比如，客户端A、B为手机客户端，则客户端A要传达消息或信息给手机客户端B，先由该IMS接收后再推送，IMS可以根据手机号码等识别客户端A是向客户端B发送消息。\n[0033] 在步骤S130处，接收端接收服务器端推送的语音消息。\n[0034] 其中，接收端在接收到服务器端推送的语音消息时，可以生成表示该语音消息的标记，并显示所述标记。该标记可以显示该语音消息的部分信息，比如该语音消息的长度信息、发送该语音消息的发送端的相关信息和/或语音所在的位置信息等。标记可以是图标、符号、图形、图像等。\n[0035] 例如：客户端B可以接收从即时通信服务器IMS推送来的录音，该录音即客户端A要传达给客户端B的语音消息。在客户端B的终端设备的显示屏幕上，显示一标记(见图2所示从上往下数的第三个长条形标记 )。该标记表示客户端B收到了客户端A发给客户端B的语音消息，该标记的位置还表示收到的语音消息在显示屏幕上的位置。由此，可以提示客户端B的用户，客户端A发来了语音消息，该消息在屏幕的某个位置，可以在该位置获取消息内容。\n[0036] 在步骤S140处，接收端发起对所述语音消息的语音识别请求，并将所述识别请求发送到服务器端。\n[0037] 语音消息对应的标记或标记所在位置(包括位置附近)，可以绑定或嵌入一个或多个可由用户操作的命令按钮、控件、插件等，以作为用户接口界面(UI/GUI)用于与用户进行交互，获取用户命令(指令)。由此，用户可以通过对标记产生行为动作(操作)比如：选择、点击、按压标记或标记附近的位置等等，触发绑定的操作命令，，如发起对该语音的处理命令等。\n[0038] 例如：客户端B的用户，根据需要，如希望直接收听该语音消息，其可以点击代表语音消息的标记(图2所示的第三个长条)，则客户端B播放对应的语音；如希望对该语音消息进行进一步处理时，其可以长时间按压该标记(比如以超过预设时间阈值按压该标记)，弹出选择框，所述选择框可以提供一种或多种命令，以菜单的方式供用户选择。当用户点选了选择框中的“转文字”功能键时，客户端B获得用户的“语音转换为文字”的命令，即用户发起的语音的识别命令。\n[0039] 具体地，用户对表示语音的标记的行为，产生或者发起了用户命令，如识别语音/文字转换等命令，接收端结合该用户的行为所对应的语音消息的语音ID，形成用户对该语音消息的语音识别请求，发送到服务器端，以请求语音识别处理，得到对应语音的文字。语音识别请求包括语音ID、语音识别命令等。\n[0040] 传送请求到服务器端，包括：发给服务器端的即时通信服务器IMS，或者，发送到服务器端的语音识别服务器(或语音识别服务器集群)等。\n[0041] 在步骤S150处，服务器端接收识别请求，根据所述请求执行对该语音消息的识别处理，将处理结果返回至所述接收端。\n[0042] 服务器端接收从接收端传来的语音处理请求，提取其中的语音ID，在服务器端的数据库中找到对应该ID的语音，并对找到的语音进行处理。\n[0043] 对所述语音消息进行的处理为语音识别处理，用于将所述语音消息转换为文字消息。根据语音识别请求中的语音识别命令对该语音进行识别处理，以便转换成文字并返回文字给接收端输出给其用户。\n[0044] 其中，可以在服务器端，增设语音识别服务模块，进行语音识别处理，获得转换后的对应语音的文字。一种方式，可以在服务器端增设语音识别模块，另一种方式，可以在设置与服务器端连接的语音识别服务器(或语音识别服务器集群)。\n[0045] 在一个实施方式中，服务器端包括即时通信服务器IMS。IMS中增加语音识别模块。\n当接收端传来语音识别请求，由IMS接收，并提取该请求中的语音ID，从服务器端存储的语音中，找到分配了该ID的语音。IMS将找到的对应该ID的语音以及该请求中的语音识别命令，提交给IMS的语音识别模块，由语音识别模块执行以完成语音转换成文字的处理，并获得对应该语音的文字。IMS将得到的文字作为转换结果(文字结果)返回接收端以输出给用户。\n[0046] 在又一个实施方式中，服务器端包括IMS、与IMS连接的语音识别服务器或语音识别服务器集群。\n[0047] 实施方式一(如图4A)：\n[0048] 当接收端传来语音识别请求，由IMS接收，并提取该请求中的语音ID，从存储的语音中，找到分配了该ID的语音。\n[0049] IMS将找到的对应该ID的语音以及该请求中的语音识别命令，提交给与IMS连接的语音识别服务器(集群)，由语音识别服务器(集群)完成语音转换成文字的处理，并获得对应该语音的文字。\n[0050] 语音识别服务器(集群)将得到的文字返回给IMS，由IMS将该文字作为转换结果返回接收端以输出给用户。\n[0051] 其中，转换和返回结果的处理过程，可以采用同步模式，如：IMS服务器在语音识别服务器(集群)处理过程中保持等待，得到语音识别服务器(集群)发回的结果后，IMS将结果返回给客户端。\n[0052] 其中，转换和返回结果的处理过程，可以采用异步模式，如：IMS服务器将语音推送给语音识别服务器(集群)后，不保持等待，直到语音识别服务器识别出结果后唤醒IMS，IMS服务器得到发回的结果，再返回该结果给客户端。由于语音识别计算量大，需要等待一定时间，因而，异步模式有助于进一步减轻由于IMS的持续等待所带来的高并发负载。\n[0053] 实施方式二(如图4B)：\n[0054] 当接收端传来语音识别请求，由语音识别服务器(集群)接收，语音识别服务器(集群)提取该请求中的语音ID，提交给连接的IMS。\n[0055] IMS根据由语音识别服务器传来的该ID，从存储的语音中，找到分配了该ID的语音，并将查找结果即对应该ID的语音推送给语音识别服务器(集群)，由语音识别服务器(集群)根据该请求中的语音识别命令，完成语音转换成文字的处理，获得对应该语音的文字。\n[0056] 语音识别服务器(集群)将得到的文字作为转换结果直接返回接收端以输出给用户。\n[0057] 由于语音识别的计算性能要求较高，需要更多的CPU(多核CPU)、大内存，因而，采用服务器或高并发的服务器集群方式(如图4A、4B)，可以有效提高识别算法的计算效率。另外，为进一步提高算法效率，可以采用C或C++语言实现部分并行要求高的算法(深度神经网络)，更进一步，还可以采用GPU加速来完成识别、转换的运算处理。\n[0058] 具体地，参见图3的服务器端进行语音转换成文字处理(识别)的一个例子的流程。\n此仅为语音识别服务器获得语音识别请求执行处理的一个例子，本申请不限于此。\n[0059] 步骤S310，根据语音识别处理请求，查询需要进行识别处理的语音。\n[0060] 接收端将用户发起的将某条接收到的语音进行文字转换的语音识别处理请求，发送到服务器端，由比如IMS或语音识别服务器接收。\n[0061] 例如：若由语音识别服务器接收该请求，可以从该请求中提取与语音识别命令一并发来的需要处理的语音的ID，再根据该ID通知连接语音识别服务器的IMS，以查询存储的对应该ID的语音。IMS以该ID为关键词，可以查询存储在IMS的分配了该ID的语音，并将该语音推送到语音识别服务器。若由IMS接收该请求，可以从该请求中提取与语音识别命令一并发来的需要处理的语音的ID，以该ID为关键词，可以查询存储在IMS的分配了该ID的语音，并将该语音以及语音识别命令传送到语音识别服务器。\n[0062] 步骤S320，基于该语音以及请求中的语音识别命令，执行语音识别的处理，将语音转换成对应的文字，将该文字作为结果返回给接收端。\n[0063] 例如：若由语音识别服务器直接接收该请求，则语音识别服务器得到由IMS推送来的对应该ID的语音，可以按照语音识别命令，触发语音识别处理的执行。由此，将该语音转换得到对应的文字。语音识别服务器再将得到的文字语音识别结果直接返回给接收端。\n[0064] 例如，若由IMS接收该请求，则语音识别服务器得到由IMS传送来的对应该ID的语音以及语音识别命令，根据语音识别命令触发语音识别处理的执行。由此，将该语音转换得到对应的文字，并将结果发回给IMS。由IMS返回结果给接收端。\n[0065] 由此，服务器端自动进行语音的获取和处理，仅由接收端发送处理命令和语音的ID，无需接收端向服务器端推送语音数据，极大的加快了传输和处理速度、并节省了网络流量即节约了网络资源，有助于语音的识别和转换效率的提高，并为用户带来方便。\n[0066] 在步骤S160处，根据接收的语音识别后的结果，将结果中对应语音消息的文字内容输出给用户。\n[0067] 接收端可以将从服务器端返回的语音识别的处理结果即对应该语音的文字，显示输出在接收端的终端设备屏幕上，显示位置可根据需要设置。例如：将文字显示在紧邻该语音的标记位置或标记位置附近，或者，将文字以浮动、透明、滚动条、气泡等方式显示在该标记位置或标记位置附近，等等。\n[0068] 进一步，超长的语音的文字还可以折叠或省略一部分，只显示开头的文字和/或结尾的文字等。\n[0069] 进一步，显示的文字可以在一定条件下、或一定时长后不再显示，如：用户查看完后，离开即时通信APP界面、或锁屏、或进入屏保状态、或半分钟未对终端设备有操作等，则该显示的文字可以隐去不再显示(如：隐藏)。直到用户再次查看如点选“转文字”功能键时，再显示。因而，可以为该已经转换成的文字设置缓存以存储对应语音的已经转换的文字。\n[0070] 在一实施方式中，针对接收端的同一用户多次请求语音转文字，或者多个用户(如即时通信工具的群、即时聊天工具的群聊)对同一ID的语音先后请求语音转文字的情况，建立语音的缓存机制，在IMS服务器和/或语音识别服务器(集群)或其他存储中，按语音ID存放第一次请求所生成的文字结果，在后续的请求中根据该语音的ID先查找缓存中，确定是否已经存在文字结果，如果有对应的结果，直接返回结果；如果没有则再进行语音识别，如步骤S150、步骤S310-S320。这一实施方式有助于大大加快对同一语音转文字的重复请求的响应速度，并减少了服务器端的计算量和网络带宽，即提高响应效率、节省了网络资源。\n[0071] 例如：客户端B发送了识别请求就能够自动获取该语音文字，显示在该语音附近，如图2所示的客户端B屏幕上紧邻语音标记显示位置的下方，以省略一部分的方式显示对应语音的文字。如果是群聊，若在服务器端设置了缓存将语音ID与对应其语音的文字结果存储起来，则存在多个客户端B以及多个客户端B用户。第一个客户端B的用户首次请求并获得了文字结果，该结果存储在缓存中，则第二个客户端B的用户也想查看语音的文字内容而发出语音识别请求时，可以快速从服务器端的缓存中由ID查到该文字结果，直接响应返回结果。\n[0072] 由此，接收端可以展示该语音所要传达的文字内容其用户，完成了发送端和接收端之间的一条语音以文字方式获知的即时通信过程。\n[0073] 在另一实施方式中，还可以在步骤S120处，服务器端在收到发送端的语音并为其分配ID时，就执行对该语音的识别处理，获得将语音转换成的文字，并对应语音ID存储文字结果，或者对应语音ID、语音存储文字结果。由此，将每个要推送给接收端的语音都在接收到该语音时就进行了识别处理而获得并存储了对应的文字结果。其识别转换例如：参见步骤S150，IMS将来自发送端的语音提供给语音识别服务器(集群)或语音识别模块，完成文字转换，将得到文字发回给IMS，由IMS或语音识别服务器(集群)存储。其中，该转换处理是服务器端在每接收到一个语音并分配语音ID时即步骤S120时，就执行对该语音的转换，获得对应的文字结果并与语音ID等一并存储。这样，由于转换已经在步骤S120中完成，在步骤S150，当服务器端收到接收端的语音识别请求时，服务器端只需要提取该请求中的ID，查找对应该ID存储的已经转换过的该语音的文字结果，将该结果返回给接收端，作为对该请求中的语音识别命令的执行结果，而不必根据语音识别请求去查询与语音ID对应的语音再进行转换。由此，能对语音识别请求、语音识别命令立刻做出响应，大大加快了对请求的响应速度，迅速将文字返回给接收端，提高了响应效率。\n[0074] 本申请还提供了一种语音识别系统。如图4A-4B所示，为根据本申请的系统的一例子的系统结构图。\n[0075] 在所述系统中，可以包括发送端接收端、服务器端。\n[0076] 发送端将待发送的语音录音并编码，以接收端为目标进行传递，该录音编码(语音)发送到服务器端。具体发送端实现的处理如步骤S110。\n[0077] 接收端，接收来自服务器端推送的、发送端发给接收端的语音，并显示代表语音的标记，具体实现如步骤S130的处理过程。进而，当用户交互需要对语音进行文字转换时，可以将用户对该标记发起的语音识别请求发送给服务器端实现语音转换成文字的处理，获得文字结果，具体实现如步骤S140的处理。进一步，当服务器端返回了语音识别后的文字结果，则输出给用户，具体实现如步骤S160的处理过程。\n[0078] 服务器端，接收来自发送端的录音，并把该录音推送到发送端要传递该录音对应的语音的目标，即接收端，具体实现的处理如步骤S120。\n[0079] 其中，服务器端可以包括即时通信服务器，由即时通信服务器接收来自发送端的录音并推送到接收端。进一步，即时通信服务器可以存储收到的录音对应的语音、并分配给该语音一个唯一的标识ID，将语音ID与语音对应存储。\n[0080] 进一步，服务器端增设语音识别服务模块，一种方式，可以是在即时通信服务器IMS中增加语音识别模块，进行语音识别处理；另一种方式，可以是设置与IMS相连接的语音识别服务器或语音识别服务器集群，进行语音识别处理。\n[0081] 服务器端接收来自接收端的语音识别请求，进行文字转换，具体实现如步骤S140-S150。\n[0082] 其中，一种方式，可以是IMS接收到该请求，从请求中提取语音ID，找到对应的语音，提交给语音识别模块或者语音识别服务器(集群)，完成语音的文字转换。传送转换得到的文字结果给IMS以便返回给接收端。\n[0083] 又一种方式，由语音识别服务器(集群)接收到该请求，提取请求中的语音ID给IMS以找到对应的语音并提交给语音识别服务器。语音识别服务器(集群)从IMS获得该语音并进行语音的文字转换，将文字结果返回接收端420。\n[0084] 进一步，IMS或语音识别服务器(集群)，还可以对应语音ID和/或语音，存储该文字结果或者缓存该文字结果，以便对同一语音再次请求文字转换时，直接根据请求中的语音ID查找到文字结果，快速响应请求。\n[0085] 另外，服务器端还可以在接收到来自发送端的语音录音时，即对其进行语音识别处理(而无需根据ID进行查找的过程)，并分配对应语音的唯一标识ID，且对应存储。进一步还可以将语音识别处理所转换得到的语音的文字结果，与ID和/或语音，对应存储。服务器端具体实现的语音识别处理如“在另一实施方式中”的步骤S120、步骤S150的方式，只是具体的语音转换为文字的处理过程安排在了步骤S120，而根据语音识别命令的处理是找到ID对应的已经存储的文字结果。这样，一旦接收端发来语音识别请求，就可以直接调出对应请求中语音ID的文字结果，加快了响应请求的速度。\n[0086] 由于图4A、4B所描述的本申请的系统所包括的各个部分的具体实施方式与本申请的方法中的步骤的具体实施方式是相对应的，由于已经对图1-图3进行了详细的描述，所以为了不模糊本申请，在此不再对各个模块的具体细节进行描述。\n[0087] 在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。\n[0088] 内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。\n[0089] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。\n计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。\n[0090] 还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。\n[0091] 本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。\n因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。\n[0092] 以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN102347913A	2012-02-08	2011-07-08	一种语音和文字内容混排消息的实现方法有效专利	个信互动(北京)网络科技有限公司
2	CN102695134A	2012-09-26	2011-03-22	语音短信系统及其处理方法有效专利	富泰华工业(深圳)有限公司;鸿海精密工业股份有限公司
3	CN103295576A	2013-09-11	2012-03-02	一种即时通信的语音识别方法和终端无效专利	腾讯科技(深圳)有限公司
4	CN103248760A	2013-08-14	2013-04-12	信息处理方法、装置和终端有效专利	北京小米科技有限责任公司
5	CN101079836A	2007-11-28	2006-12-21	一种基于非对称媒体的即时通信方法及系统无效专利	腾讯科技(深圳)有限公司
6	CN101938391A	2011-01-05	2010-08-31	一种处理语音的方法、系统、遥控器、机顶盒、云服务器无效专利	中山大学
7	CN103281683A	2013-09-04	2013-06-08	一种发送语音消息的方法及装置有效专利	网易(杭州)网络有限公司
8	CN1704958A	2005-12-07	2005-06-01	信息传输系统和信息传输方法失效专利	日本电气株式会社
9	CN103327156A	2013-09-25	2013-06-25	一种语音文件输出方法及装置无效专利	腾讯科技(深圳)有限公司
10	CN103327181A	2013-09-25	2013-06-08	可提高用户获知语音信息效率的语音聊天方法有效专利	广东欧珀移动通信有限公司
11	CN102299934A	2011-12-28	2010-06-23	一种基于云模式和语音识别的语音输入方法无效专利	上海博路信息技术有限公司
12	CN102238098A	2011-11-09	2010-05-05	一种信息合成方法、及对应的终端和即时通讯系统有效专利	腾讯科技(深圳)有限公司
13	CN102710539A	2012-10-03	2012-05-02	语音信息传送方法及装置无效专利	中兴通讯股份有限公司

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供