Jun, 2024

MM-SpuBench: 对多模态 LLMs 中偶发偏见的更好理解

TL;DR在深度学习模型中,单一模态数据的训练容易导致假的偏见,而多模态大型语言模型(MLLMs)在综合视觉和语言模型方面展示了强大的能力。本文分析了 MLLMs 中的假偏见,揭示了当视觉模型中的偏见影响 MLLMs 中视觉和文本符号之间的对齐时,特定的测试数据模式会表现出这一问题,并通过引入 MM-SpuBench、一个全面的视觉问答(VQA)评估基准,从五个开源图像数据集中评估了现有最先进的 MLLMs。我们的研究结果显示了这些模型对于假关联的依赖性的持久存在,并强调了减轻假的偏见的新方法的迫切性。为了支持 MLLMs 的稳健性研究,我们在该网址发布了我们的 VQA 基准。