May, 2023

感知测试:多模式视频模型的诊断基准

TL;DR本研究提出了一种新颖的多模式视频基准——“感知测试”,以评估预训练的多模态模型(如Flamingo、BEiT-3或GPT-4)的感知和推理能力,并针对记忆、抽象、物理、语义等技能和描述性、解释性、预测性、反事实等类型的推理跨越视频、音频和文本模式,提供了一种全面高效的评估工具,以探究预训练模型的迁移能力。