Nov, 2023

ViLMA:视频 - 语言模型中的语言与时间基准的零样本评测

TL;DR通过提出 ViLMA(视频语言模型评估)作为一个任务无关的基准,我们针对预训练的视频语言模型的微观能力开展了一个鲁棒的评估方法,该基准通过精心策划的反事实情况提供了一个控制的评估套件,揭示了这些模型的真实潜力以及与人类理解水平相比的性能差距。