Oct, 2023

分析视觉语言模型在视频理解任务上的零样本能力

TL;DR我们通过对图像文本模型在视频理解任务中的泛化能力进行详细研究,发现这些模型在视频行动识别、视频检索和视频多项选择方面表现出强大性能,对视频字幕能力中等,对视频问答能力较差,这些结果揭示了在避免昂贵的预训练阶段的同时,将基础图像文本模型应用于各种视频任务的益处。