Oct, 2022

通过分离空间 - 时间建模学习视频问答的细粒度视觉理解

TL;DR该论文提出了一种新的视频 - 语言模型:去耦合的空间 - 时间编码器,通过将图像编码器中的空间模型独立于时间进行编码,将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频 - 语言模型学习视频 QA 中的时间关系以达到更好的视觉理解。