加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种时域单通道多说话人语音识别方法与系统

发明专利有效专利
  • 申请号:
    CN202010061565.6
  • IPC分类号:G10L15/16;G10L15/02;G10L21/0208
  • 申请日期:
    2020-01-19
  • 申请人:
    清华大学
著录项信息
专利名称一种时域单通道多说话人语音识别方法与系统
申请号CN202010061565.6申请日期2020-01-19
法律状态授权申报国家中国
公开/公告日2020-06-05公开/公告号CN111243579A
优先权暂无优先权号暂无
主分类号G10L15/16IPC分类号G;1;0;L;1;5;/;1;6;;;G;1;0;L;1;5;/;0;2;;;G;1;0;L;2;1;/;0;2;0;8查看分类表>
申请人清华大学申请人地址
北京市海淀区信箱82分箱清华大学专利办公室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人清华大学当前权利人清华大学
发明人黄露;杨毅;孙甲松
代理机构西安智大知识产权代理事务所代理人段俊涛
摘要
一种时域单通道多说话人语音识别方法,输入是混合语音信号的原始波形采样,先通过一维卷积网络提取特征,然后送入分离网络进行语音分离;分离后的输出分别送入两个全连接层,输出两个声学状态分布向量;随后采用强制对齐方法,从已有的目标语音标注中获得相应的标注信息,通过交叉打分和阈值选择的方式计算两种排序下较小的一个声学建模单元概率分布误差作为神经网络反向传播的误差,构建含有时域单通道多说话人语音识别模型,利用该模型即可实现多说话人语音识别,本发明还提供了一种通过阈值设置来减少1/4~1/2误差计算量的打分算法以加速交叉打分过程。在测试时,将神经网络两个输出的概率向量对数值送入语音识别解码器,即可获得两个人的识别文本。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供