路标网共为您找到相关结果1个
一种多模态视频理解方法
发明专利有效专利摘要:本发明公开了一种多模态视频理解方法,包括建立多模态融合网络,将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数,将视频标题文本通过编码器和多层感知机得到二号特征向量,将一号特征向量与二号特征向量进行余弦相似度计算,得出视频对比学习框架。本发明通过话题识别任务促进工业界开发更完备的深度模型,实现对于短视频整体的高层语义理解;视频文本互检索放弃了预定义类别体系和传统的强监督学习范式,转而使用自然语言作为监督信号,视频文本互检索并非唯一利用语言信息帮助视频理解的途径,视频标题生成与基于文本的视频生成同样可以实现。
*来源于国家知识产权局数据,仅供参考,专利服务由北京酷爱智慧知识产权代理公司提供