Oct, 2023

MM-BigBench:评估多模态模型在多模态内容理解任务上的表现

TL;DR通过使用全面的评估框架 MM-BigBench,本文综合评估了 20 个语言模型(包括 14 个多模态大型语言模型)在 14 个多模态数据集上的性能,并通过引入新的指标,对不同模型和指令之间的性能以及适应性进行了评估。