音频数据的预训练、模型训练方法、装置、设备及介质

发明专利有效专利

申请号：
CN202010733155.1
IPC分类号：G10L25/03;G10L19/16;G06N3/08;G06N3/04;G06K9/62
申请日期：
2020-07-27
申请人：
北京嘀嘀无限科技发展有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	音频数据的预训练、模型训练方法、装置、设备及介质
申请号	CN202010733155.1	申请日期	2020-07-27
法律状态	授权	申报国家	中国
公开/公告日	2020-11-06	公开/公告号	CN111899759A
优先权	暂无	优先权号	暂无
主分类号	G10L25/03 ? IPC结构图谱： G 物理 G0 仪器 G10 乐器；声学 G10L 语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码〔4〕 G10L25/00 不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术（当利用语音检测器来感知一些信号特殊特征的基于半导体的静噪放大器，如无信号时的感知入H03G3/34） G10L25/03 以提取参数类型为特征的〔2013.01〕	IPC分类号	G;1;0;L;2;5;/;0;3;;;G;1;0;L;1;9;/;1;6;;;G;0;6;N;3;/;0;8;;;G;0;6;N;3;/;0;4;;;G;0;6;K;9;/;6;2查看分类表>
申请人	北京嘀嘀无限科技发展有限公司	申请人地址	北京市海淀区东北旺西路8号院34号楼变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	北京嘀嘀无限科技发展有限公司	当前权利人	北京嘀嘀无限科技发展有限公司
发明人	张睿雄;邹伟;李先刚
代理机构	北京超成律师事务所	代理人	裴素英

摘要

本申请提供一种音频数据的预训练、模型训练方法、装置、设备及介质，涉及音频处理技术领域。该方法包括：预训练模型包括：掩码层、第一编码层以及第一前馈层，所述方法包括：采用所述掩码层，对样本音频数据进行掩码处理，得到掩码声学特征；采用所述第一编码层对所述掩码声学特征进行所述第一编码层对应音频任务的编码处理；采用所述第一前馈层对所述编码处理后的声学特征进行掩码重构处理，得到重构预测结果；根据所述重构预测结果，对所述掩码层的掩码参数进行更新，得到目标预训练模型。相对于现有技术，避免了由于样本音频数据质量不高等问题，导致学习到的音频表示的鲁棒性不足的问题。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供