加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于决策层融合的音视频关键词识别方法

发明专利有效专利
  • 申请号:
    CN201410133414.1
  • IPC分类号:G10L15/26;G10L15/06;G06F17/30
  • 申请日期:
    2014-04-03
  • 申请人:
    北京大学深圳研究生院
著录项信息
专利名称一种基于决策层融合的音视频关键词识别方法
申请号CN201410133414.1申请日期2014-04-03
法律状态授权申报国家中国
公开/公告日2014-07-23公开/公告号CN103943107A
优先权暂无优先权号暂无
主分类号G10L15/26IPC分类号G;1;0;L;1;5;/;2;6;;;G;1;0;L;1;5;/;0;6;;;G;0;6;F;1;7;/;3;0查看分类表>
申请人北京大学深圳研究生院申请人地址
广东省深圳市南山区西丽深圳大学城北京大学校区 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京大学深圳研究生院当前权利人北京大学深圳研究生院
发明人刘宏;范婷;吴平平
代理机构北京君尚知识产权代理事务所(普通合伙)代理人余长江
摘要
本发明涉及一种基于决策层融合的音视频关键词识别方法,其主要包括以下步骤:1)录制关键词音视频,得到关键词和非关键词的语音声学特征向量序列和视觉特征向量序列,并据此训练关键词和非关键词的声学模板和视觉模板;2)根据不同声学噪声环境下的音视频,得到声学似然度和视觉似然度,并据此得到声学模态可靠度、视觉模态可靠度和最优权重,并据此训练人工神经网络;3)根据声学模板和视觉模板、人工神经网络,对待测音视频进行并行的基于声学和视觉双模态的二次关键词识别。本发明将声学作用和视觉作用在决策层进行融合,对待测音视频进行并行的基于双模态的二次关键词识别,充分利用声学噪声环境下视觉信息的贡献,提高识别性能。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供