使用端到端模型的讲话者分割

发明专利有效专利

申请号：
CN201980033104.3
IPC分类号：G10L17/04;G10L17/18
申请日期：
2019-04-15
申请人：
谷歌有限责任公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	使用端到端模型的讲话者分割
申请号	CN201980033104.3	申请日期	2019-04-15
法律状态	实质审查	申报国家	中国
公开/公告日	2021-05-14	公开/公告号	CN112805780A
优先权	暂无	优先权号	暂无
主分类号	G10L17/04 ? IPC结构图谱： G 物理 G0 仪器 G10 乐器；声学 G10L 语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码〔4〕 G10L17/00 讲话者辨认或验证〔7〕 G10L17/02 预处理操作，例如：片断选择；模式表示或模拟，例如基于线性判别式分析(LDA)或主要部件；特征选择或提取〔2013.01〕 G10L17/04 训练，登记或模型的建立〔2013.01〕	IPC分类号	G;1;0;L;1;7;/;0;4;;;G;1;0;L;1;7;/;1;8查看分类表>
申请人	谷歌有限责任公司	申请人地址	美国加利福尼亚州变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	谷歌有限责任公司	当前权利人	谷歌有限责任公司
发明人	王泉;亚什·舍斯;伊格纳西奥·洛佩斯·莫雷诺;利·万
代理机构	中原信达知识产权代理有限责任公司	代理人	李佳;邓聪惠

摘要

描述了用于训练和/或利用端到端讲话者分割模型的技术。在各种实施方式中，该模型是递归神经网络(RNN)模型，诸如包括至少一个诸如长短期记忆(LSTM)层的记忆层的RNN模型。音频数据的音频特征可以作为输入应用于根据本文公开的实施方式训练的端到端讲话者分割模型，并且该模型被利用以处理音频特征以通过模型生成讲话者分割结果作为直接输出。此外，端到端讲话者分割模型可以是序列到序列模型，其中序列可以具有可变长度。因此，该模型可以被利用以为各种长度的音频分段中的任何一个生成讲话者分割结果。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供