MM-SpuBench: 对多模态 LLMs 中偶发偏见的更好理解

Jun, 2024

MM-SpuBench: 对多模态 LLMs 中偶发偏见的更好理解

MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs

Wenqian Ye, Guangtao Zheng, Yunsheng Ma, Xu Cao, Bolin Lai...

TL;DR在深度学习模型中，单一模态数据的训练容易导致假的偏见，而多模态大型语言模型（MLLMs）在综合视觉和语言模型方面展示了强大的能力。本文分析了 MLLMs 中的假偏见，揭示了当视觉模型中的偏见影响 MLLMs 中视觉和文本符号之间的对齐时，特定的测试数据模式会表现出这一问题，并通过引入 MM-SpuBench、一个全面的视觉问答（VQA）评估基准，从五个开源图像数据集中评估了现有最先进的 MLLMs。我们的研究结果显示了这些模型对于假关联的依赖性的持久存在，并强调了减轻假的偏见的新方法的迫切性。为了支持 MLLMs 的稳健性研究，我们在该网址发布了我们的 VQA 基准。

Abstract

spurious bias, a tendency to use spurious correlations between non-essential input attributes and target variables for predictions, has revealed a severe robustness pitfall in deep learning models trained on single modality data. →

spurious bias multimodal large language models vision-language understanding mm-spubench vqa benchmark

发现论文，激发创造

量化和减轻多模大型语言模型中的单模偏差：因果视角

近期，大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力，但往往过于依赖单模态偏见（例如，语言偏见和视觉偏见），导致在复杂的多模态任务中回答错误。为了研究这个问题，我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中，我们设计了一个因果图来阐明 MLLMs 在 VQA 问题上的预测，并通过深入的因果分析评估偏见的因果效应。受到因果图的启发，我们引入了一个名为 MORE 的新数据集，包含了 12,000 个 VQA 实例。该数据集旨在挑战 MLLMs 的能力，需要进行多跳推理和克服单模态偏见。此外，我们提出了两种策略来减轻单模态偏见和增强 MLLMs 的推理能力，包括针对有限访问 MLLMs 的 “分解 - 验证 - 回答” (DeVA) 框架以及通过微调改进开源 MLLMs。广泛的定量和定性实验为未来的研究提供了宝贵的见解。

Mar, 2024

本能偏见：虚假图像导致多语言语言模型的幻觉

通过提出 “CorrelationQA” 评估指标，该研究探讨了多模态大型语言模型的困惑问题并发现其存在普遍的本能偏见和缺乏鲁棒性。

Feb, 2024

明辨视界，难答问题：基于多模态鲁棒性的机器学习语言模型评估

通过提出一个多模态鲁棒性评估基准以及一个训练集，我们发现多模态大型语言模型在理解视觉内容方面存在脆弱性，而这种脆弱性可以通过在新的训练集上进行微调来显著增强。

Jun, 2024

多模态偏见：在视觉语言模型中引入一个能评估除性别和种族以外刻板印象的框架

本文提出了一个名为 MMBias 的基准数据集，用于评估自我监督多模态模型中的偏差，并介绍了一种旨在缓解偏差的去偏置方法。

Mar, 2023

再三思考：衡量消除问答模型预测快捷方式的效率

本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

May, 2023

面向强健的视觉问答：通过对比学习充分利用偏倚样本

提出了一个名为 MMBS 的对比学习方法，通过去除与偏见相关的信息构建正样本进行训练，从而构建更加鲁棒的视觉问答模型并增加其对理性推理的贡献，同时在 VQA-CP v2 OOD 数据集上取得了竞争性的表现以及在 VQA v2 ID 数据集上保持了鲁棒的性能。

Oct, 2022

对大型多模态模型进行常见冲突的基准测试

填补大型多模型（LMMs）评估中的不足，通过研究其输出在常见破坏情况下的自一致性，调查文本、图像和语音之间的跨模态交互，创建了一个综合性基准 MMCbench，评估了 100 多个受欢迎的 LMMs（共 150 个模型检查点），此全面评估对于实际部署至关重要，并有助于更好地了解顶尖 LMMs 的可靠性。

Jan, 2024

低级视觉上多模态基础模型的基准：从单图像到图像对

通过设计基准测试，评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力，并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现，多个 MLLMs 在单一图像上表现出不错的低层次视觉能力，但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性（类似于人类）。希望这个基准测试能够激发进一步研究，揭示和增强 MLLMs 的新兴能力。

Feb, 2024

多模态人工智能中的公平性与偏见：一项调研

人工智能系统中解决公平性和偏差的重要性不可低估。本文填补了大型多模态模型在公平性和偏差研究方面相对于大型语言模型的缺口，提供了 50 个数据集和模型的示例以及影响它们的挑战；我们除了文献中已知的内在偏差和外在偏差两种方式外，还确定了一种新的偏差量化方法（preuse）；我们批判性地讨论了研究人员面对这些挑战时采取的各种方式。我们的方法使用了两个稍有不同的 Google Scholar 搜索词，结果显示出 “大型多模态模型中公平性和偏差” 的搜索词的结果为 33,400 个链接，“大型语言模型中公平性和偏差” 的搜索词的结果为 538,000 个链接。我们相信这项工作有助于填补此领域的研究空白，并向研究人员和其他相关者提供处理多模态人工智能中公平性和偏差问题的见解。

Jun, 2024

VLBiasBench：大型视觉语言模型偏见评估综合基准测评

通过引入 VLBiasBench 数据集和进行广泛的评估，我们对大型视觉语言模型中的偏见进行了全面研究，并揭示了一些新的见解。

Jun, 2024