Oct, 2023

Videoprompter: 零-shot 视频理解的一组基础模型

TL;DR本文提出了一种将预训练的判别性视觉-语言模型与预训练的生成性视频-文本和文本-文本模型相结合的框架,在零样本设置中引入了两个关键改进,提高了视觉-语言模型的性能,并在视频理解方面展示了一致的改进。