一种基于DBLSTM+CTC声学模型的语音识别方法

发明专利有效专利

申请号：
CN201911142225.X
IPC分类号：G10L15/02;G10L15/05;G10L15/06;G10L15/18
申请日期：
2019-11-20
申请人：
武汉水象电子科技有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种基于DBLSTM+CTC声学模型的语音识别方法
申请号	CN201911142225.X	申请日期	2019-11-20
法律状态	实质审查	申报国家	暂无
公开/公告日	2020-04-14	公开/公告号	CN111009236A
优先权	暂无	优先权号	暂无
主分类号	G10L15/02 ? IPC结构图谱： G 物理 G0 仪器 G10 乐器；声学 G10L 语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码〔4〕 G10L15/00 语音识别（G10L 17/00优先）〔7，2013.01〕 G10L15/02 语音识别的特征提取；识别单位的选择〔7〕	IPC分类号	G;1;0;L;1;5;/;0;2;;;G;1;0;L;1;5;/;0;5;;;G;1;0;L;1;5;/;0;6;;;G;1;0;L;1;5;/;1;8查看分类表>
申请人	武汉水象电子科技有限公司	申请人地址	湖北省武汉市武昌区和平大道1178号武汉理工大学余家头校区内北园一栋502-13（工位）变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	武汉水象电子科技有限公司	当前权利人	武汉水象电子科技有限公司
发明人	袁熹;柳慧芬
代理机构	北京汇泽知识产权代理有限公司	代理人	郑飞

摘要

一种基于DBLSTM+CTC声学模型的语音识别方法，所述方法包括：步骤1，获取实时语音信号，对所述语音信号进行特征抽取，获得逐帧的声学特征序列；步骤2，将所述声学特征序列作为DBLSTM+CTC声学模型的输入，并输出音素序列；步骤3，建立音素序列转文字序列的解码模型，将所述音素序列作为所述解码模型的输入，并通过所述解码模型输出文字序列。本发明为基于两级端到端(seq2seq)的语音识别方法，包括“语音‑音素序列”的端到端模型以及“音素序列‑文字序列”，区别现有“语音‑文字序列”的端到端模型，两个模型均不需要超大规模的语料训练，且两部分能够优势互补，在一定程度上，语言模型能够弥补在声学模型在噪声环境下的不足。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供