一种基于决策层融合的音视频关键词识别方法

发明专利有效专利

申请号：
CN201410133414.1
IPC分类号：G10L15/26G10L15/06G06F17/30
申请日期：
2014-04-03
申请人：
北京大学深圳研究生院

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种基于决策层融合的音视频关键词识别方法
申请号	CN201410133414.1	申请日期	2014-04-03
法律状态	授权	申报国家	中国
公开/公告日	2014-07-23	公开/公告号	CN103943107A
优先权	暂无	优先权号	暂无
主分类号	G10L15/26 ? IPC结构图谱： G 物理 G0 仪器 G10 乐器；声学 G10L 语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码〔4〕 G10L15/00 语音识别（G10L 17/00优先）〔7，2013.01〕 G10L15/26 语音—正文识别系统（G10L 15/08优先）〔7〕	IPC分类号	G10L15/26;G10L15/06;G06F17/30查看分类表>
申请人	北京大学深圳研究生院	申请人地址	广东省深圳市南山区西丽深圳大学城北京大*** 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	北京大学深圳研究生院	当前权利人	北京大学深圳研究生院
发明人	刘宏;范婷;吴平平
代理机构	北京君尚知识产权代理事务所（普通合伙）	代理人	余长江

摘要

本发明涉及一种基于决策层融合的音视频关键词识别方法，其主要包括以下步骤：1）录制关键词音视频，得到关键词和非关键词的语音声学特征向量序列和视觉特征向量序列，并据此训练关键词和非关键词的声学模板和视觉模板；2）根据不同声学噪声环境下的音视频，得到声学似然度和视觉似然度，并据此得到声学模态可靠度、视觉模态可靠度和最优权重，并据此训练人工神经网络；3）根据声学模板和视觉模板、人工神经网络，对待测音视频进行并行的基于声学和视觉双模态的二次关键词识别。本发明将声学作用和视觉作用在决策层进行融合，对待测音视频进行并行的基于双模态的二次关键词识别，充分利用声学噪声环境下视觉信息的贡献，提高识别性能。

一种负压抽吸技术试验台架

实用新型

一种基于决策层融合的音视频关键词识别方法

在售专利 早买早用

在售专利早买早用