加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于交互注意力引导与修正的跨模态动作定位方法与系统

发明专利有效专利
  • 申请号:
    CN202211145164.4
  • IPC分类号:G06V20/40;G06V40/20;G06V20/62;G06V10/26;G06V10/82;G06F40/284;G06F40/30;G06N3/04;G06N3/08
  • 申请日期:
    2022-09-20
  • 申请人:
    之江实验室
著录项信息
专利名称基于交互注意力引导与修正的跨模态动作定位方法与系统
申请号CN202211145164.4申请日期2022-09-20
法律状态授权申报国家中国
公开/公告日2022-10-21公开/公告号CN115223086A
优先权暂无优先权号暂无
主分类号G06V20/40IPC分类号G;0;6;V;2;0;/;4;0;;;G;0;6;V;4;0;/;2;0;;;G;0;6;V;2;0;/;6;2;;;G;0;6;V;1;0;/;2;6;;;G;0;6;V;1;0;/;8;2;;;G;0;6;F;4;0;/;2;8;4;;;G;0;6;F;4;0;/;3;0;;;G;0;6;N;3;/;0;4;;;G;0;6;N;3;/;0;8查看分类表>
申请人之江实验室申请人地址
浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人之江实验室当前权利人之江实验室
发明人汪雯;崔文辉;张骥;钟灵;宛敏红;顾建军
代理机构杭州求是专利事务所有限公司代理人邱启旺
摘要
本发明公开了一种基于交互注意力引导与修正的跨模态动作定位方法和系统,该方法使用三维卷积神经网络和词向量模型提取视频和文本描述的特征表示,并使用双向长短时间记忆网络学习视频和文本描述的上下文信息;再使用交互注意力引导模块进行视频和文本跨模态特征增强,进一步通过修正门控单元进行语义信息融合;最后将融合后的多模态特征送入到时序定位模块以获得时序片段的匹配度得分和时序边界偏移量。本发明通过增强视频和文本的特征融合能力,能有效提高视频动作定位的性能,满足现实生活中复杂场景的视频动作定位需求。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供