多模态偏见:在视觉语言模型中引入一个能评估除性别和种族以外刻板印象的框架
通过构建统一的框架系统评估大规模视觉语言模型中的性别职业偏见,我们在不同输入输出模态下的基准测试中观察到不同的偏见程度和方向,希望我们的工作能指导未来改进视觉语言模型以学习社会上没有偏见的表示方式。
Feb, 2024
该研究扩展了文本偏差分析方法,以调查多模式语言模型,并分析了这些模型学习的内部和跨模态关联和偏见。具体而言,该研究表明 VL-BERT 展示出性别偏见,往往更喜欢强化刻板印象而不是忠实描述视觉场景。
Apr, 2021
通过引入 VLBiasBench 数据集和进行广泛的评估,我们对大型视觉语言模型中的偏见进行了全面研究,并揭示了一些新的见解。
Jun, 2024
近年来,机器学习模型,特别是基于 Transformer 的预训练模型,对自然语言处理和计算机视觉领域产生了革命性的进展。然而,研究人员发现这些模型可能无意中捕捉和强化其训练数据集中存在的社会偏见,导致资源分配不平等和特定社会群体的不公平代表。解决这些偏见并确保人工智能系统的公平性已成为机器学习界关注的焦点。最近介绍的预训练视觉语言模型在新兴的多模态领域引起了人们对其中的社会偏见的关注。尽管视觉语言模型易受社会偏差影响,但对比自然语言处理和计算机视觉领域中广泛讨论的偏见而言,对此了解有限。本调查旨在向研究人员提供关于 NLP、CV 和 VL 领域中预训练模型社会偏见研究的高层次见解。通过检查这些观点,本调查旨在为单模态和多模态环境下如何应对和减轻社会偏见提供有价值的指导。本文所提供的结果和建议可使机器学习界受益,并促进在各种应用和研究努力中开发更加公平和无偏的人工智能模型。
Sep, 2023
通过因果中介分析,我们提出了一个框架,来测量和映射在视觉 - 语言模型中生成和传播偏见的路径,结果显示图像特征是偏见的主要贡献者,对模型偏见的减轻起到重要作用,同时能保持性能稳定。
Jul, 2024
我们提出了一种方法和设计了两个基准集,以衡量语言和视觉语言模型在有或没有刻板印象的情况下使用视觉信号的程度。我们的结果表明,多模型之间存在显着差异:最近基于 Transformer 的 FLAVA 似乎比早期基于 CNN 的模型(如 VisualBERT 和 LXMERT)更敏感于图像的选择,而且受刻板印象的影响较小。这种效果在控制型环境中比传统的评估中更容易觉察,我们不知道模型是依赖于刻板印象还是视觉信号。
Feb, 2023
近期,大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力,但往往过于依赖单模态偏见(例如,语言偏见和视觉偏见),导致在复杂的多模态任务中回答错误。为了研究这个问题,我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中,我们设计了一个因果图来阐明 MLLMs 在 VQA 问题上的预测,并通过深入的因果分析评估偏见的因果效应。受到因果图的启发,我们引入了一个名为 MORE 的新数据集,包含了 12,000 个 VQA 实例。该数据集旨在挑战 MLLMs 的能力,需要进行多跳推理和克服单模态偏见。此外,我们提出了两种策略来减轻单模态偏见和增强 MLLMs 的推理能力,包括针对有限访问 MLLMs 的 “分解 - 验证 - 回答” (DeVA) 框架以及通过微调改进开源 MLLMs。广泛的定量和定性实验为未来的研究提供了宝贵的见解。
Mar, 2024
通过系统地分析使用不同语言、单语和多语模型、不同架构的偏向性,扩展了评估预训练英语语言模型中的刻板偏见的研究范围,发现在多语言环境下分析是非常重要的,并且公布了代码库以及翻译数据集的实用指南以鼓励将我们的工作进一步扩展到其他语言。
Jul, 2023
人工智能系统中解决公平性和偏差的重要性不可低估。本文填补了大型多模态模型在公平性和偏差研究方面相对于大型语言模型的缺口,提供了 50 个数据集和模型的示例以及影响它们的挑战;我们除了文献中已知的内在偏差和外在偏差两种方式外,还确定了一种新的偏差量化方法(preuse);我们批判性地讨论了研究人员面对这些挑战时采取的各种方式。我们的方法使用了两个稍有不同的 Google Scholar 搜索词,结果显示出 “大型多模态模型中公平性和偏差” 的搜索词的结果为 33,400 个链接,“大型语言模型中公平性和偏差” 的搜索词的结果为 538,000 个链接。我们相信这项工作有助于填补此领域的研究空白,并向研究人员和其他相关者提供处理多模态人工智能中公平性和偏差问题的见解。
Jun, 2024
研究发现多模态情感识别系统存在系统性偏见,其中文本在所有模态中的偏见最小且在大多数情况下表现最好,提出多模态方法对于实现偏差和公正性并提高模型性能的价值存在疑问。
May, 2022