加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种多模态视频理解方法

发明专利有效专利
  • 申请号:
    CN202210765668.X
  • IPC分类号:G06F16/783;G06F16/75;G06F40/30;G06N3/04;G06V10/74;G06V20/40
  • 申请日期:
    2022-07-01
  • 申请人:
    南京大学
著录项信息
专利名称一种多模态视频理解方法
申请号CN202210765668.X申请日期2022-07-01
法律状态公开申报国家暂无
公开/公告日2022-09-30公开/公告号CN115129934A
优先权暂无优先权号暂无
主分类号G06F16/783IPC分类号G;0;6;F;1;6;/;7;8;3;;;G;0;6;F;1;6;/;7;5;;;G;0;6;F;4;0;/;3;0;;;G;0;6;N;3;/;0;4;;;G;0;6;V;1;0;/;7;4;;;G;0;6;V;2;0;/;4;0查看分类表>
申请人南京大学申请人地址
江苏省南京市栖霞区仙林大道163号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人南京大学当前权利人南京大学
发明人王利民;金力为
代理机构无锡市天宇知识产权代理事务所(普通合伙)代理人蒋何栋
摘要
本发明公开了一种多模态视频理解方法,包括建立多模态融合网络,将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数,将视频标题文本通过编码器和多层感知机得到二号特征向量,将一号特征向量与二号特征向量进行余弦相似度计算,得出视频对比学习框架。本发明通过话题识别任务促进工业界开发更完备的深度模型,实现对于短视频整体的高层语义理解;视频文本互检索放弃了预定义类别体系和传统的强监督学习范式,转而使用自然语言作为监督信号,视频文本互检索并非唯一利用语言信息帮助视频理解的途径,视频标题生成与基于文本的视频生成同样可以实现。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供