Jul, 2021

端到端多模式视频时间定位

TL;DR本文提出了一种基于多模态框架的文本指导视频时间地基方法,采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习,在 Charades-STA 和 ActivityNet Captions 数据集上实验表明,该方法表现优越。