加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于梅尔谱对齐的音频合成方法、系统、设备及存储介质

发明专利有效专利
  • 申请号:
    CN202110650777.2
  • IPC分类号:G10L13/02;G10L13/08;G10L25/24;G10L25/30;G10L19/16
  • 申请日期:
    2021-06-10
  • 申请人:
    携程旅游信息技术(上海)有限公司
著录项信息
专利名称基于梅尔谱对齐的音频合成方法、系统、设备及存储介质
申请号CN202110650777.2申请日期2021-06-10
法律状态实质审查申报国家中国
公开/公告日2021-09-07公开/公告号CN113362801A
优先权暂无优先权号暂无
主分类号G10L13/02IPC分类号G;1;0;L;1;3;/;0;2;;;G;1;0;L;1;3;/;0;8;;;G;1;0;L;2;5;/;2;4;;;G;1;0;L;2;5;/;3;0;;;G;1;0;L;1;9;/;1;6查看分类表>
申请人携程旅游信息技术(上海)有限公司申请人地址
上海市浦东新区自由贸易试验区碧波路518号302室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人携程旅游信息技术(上海)有限公司当前权利人携程旅游信息技术(上海)有限公司
发明人周明康;罗超;陈子浩;邹宇;李巍;严丽
代理机构上海隆天律师事务所代理人钟宗
摘要
本发明提供了基于梅尔谱对齐的音频合成方法、系统、设备及存储介质,该方法包括:预训练一音频合成神经网络,用于建立基于包含多个中文分词的文本中每个音素对应的向量与声学特征帧段落的对应关系,声学特征帧段落包括至少一个声学特征帧;将一文本进行正则化处理;将文本内容基于分词网络进行分词操作获得的每个分词转化为拼音,并获得对应的声学模型向量;将声学模型向量输入音频合成神经网络,获得整个文本对应的声学特征帧段落;基于整个文本对应的声学特征帧段落合成可播放音频波形。本发明能够并行生成声学特征,耗时不会随着文本的长度的增加线性增长,大大减少了长文本话术的合成耗时。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供