BiasDora：探索视觉语言模型中隐藏的偏见关联

Jul, 2024

BiasDora：探索视觉语言模型中隐藏的偏见关联

BiasDora: Exploring Hidden Biased Associations in Vision-Language Models

Chahat Raj, Anjishnu Mukherjee, Aylin Caliskan, Antonios Anastasopoulos, Ziwei Zhu

TL;DR通过检测视觉语言模型（VLMs）上的隐藏、隐含性关联，系统地探索多元的输入和输出模式，揭示存在于九个偏见维度上的细微和极端偏见，从而填补了现有方法的不足，发现通常不被现有方法识别到的隐秘和极端偏见，同时公开了关联数据集（Dora）。

Abstract

Existing works examining vision language models (VLMs) for social biases predominantly focus on a limited set of documented →

vision language models social biases bias associations implicit associations biases

发现论文，激发创造

视觉语言模型中有害标签关联的偏见

尽管基础视觉语言模型的性能出色，但文本和图像的共享表示空间也可能编码有害的标签关联，对公平性产生不利影响。本研究通过对最近发布的包含超过 70,000 个视频的 “Casual Conversations” 数据集进行调查，发现视觉语言模型在年龄、性别、肤色和装饰品等方面的有害标签关联频率存在偏差。我们发现，较暗肤色的个体更有可能被视觉语言模型误分类，并且发现随着变压器编码器模型规模的增加，对有害预测的置信度也增加。最后，我们发现在标准视觉任务上的改进并不能解决有害标签关联的不平等问题。

Feb, 2024

一个评估视觉 - 语言模型中性别偏见的统一框架和数据集

通过构建统一的框架系统评估大规模视觉语言模型中的性别职业偏见，我们在不同输入输出模态下的基准测试中观察到不同的偏见程度和方向，希望我们的工作能指导未来改进视觉语言模型以学习社会上没有偏见的表示方式。

Feb, 2024

VLBiasBench：大型视觉语言模型偏见评估综合基准测评

通过引入 VLBiasBench 数据集和进行广泛的评估，我们对大型视觉语言模型中的偏见进行了全面研究，并揭示了一些新的见解。

Jun, 2024

图像胜过言辞：从因果中介视角理解和减轻视觉语言模型中的偏见

通过因果中介分析，我们提出了一个框架，来测量和映射在视觉 - 语言模型中生成和传播偏见的路径，结果显示图像特征是偏见的主要贡献者，对模型偏见的减轻起到重要作用，同时能保持性能稳定。

Jul, 2024

在交叉背景下评估语言模型的偏见态度关联

利用上下文词嵌入的概念投射方法，量化了英语语言模型中社会群体的情感倾向，发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度，此方法旨在研究语言模型中的历史偏见，并对设计正义做出贡献，探讨了在语言中被边缘化的群体的相关关系。

Jul, 2023

使用反事实例子来探究视觉语言模型中的交叉偏见

通过使用文本到图像扩散模型和稳定扩散与交叉注意力控制方法，在产生大规模的反事实图像 - 文本对的基础上，揭示了现有的先进视觉 - 语言模型中存在的交叉社会偏差。

Oct, 2023

双倍劣势：预训练视觉与语言模型中的偏见复合

该研究扩展了文本偏差分析方法，以调查多模式语言模型，并分析了这些模型学习的内部和跨模态关联和偏见。具体而言，该研究表明 VL-BERT 展示出性别偏见，往往更喜欢强化刻板印象而不是忠实描述视觉场景。

Apr, 2021

视觉语言模型中的社会偏见调查

近年来，机器学习模型，特别是基于 Transformer 的预训练模型，对自然语言处理和计算机视觉领域产生了革命性的进展。然而，研究人员发现这些模型可能无意中捕捉和强化其训练数据集中存在的社会偏见，导致资源分配不平等和特定社会群体的不公平代表。解决这些偏见并确保人工智能系统的公平性已成为机器学习界关注的焦点。最近介绍的预训练视觉语言模型在新兴的多模态领域引起了人们对其中的社会偏见的关注。尽管视觉语言模型易受社会偏差影响，但对比自然语言处理和计算机视觉领域中广泛讨论的偏见而言，对此了解有限。本调查旨在向研究人员提供关于 NLP、CV 和 VL 领域中预训练模型社会偏见研究的高层次见解。通过检查这些观点，本调查旨在为单模态和多模态环境下如何应对和减轻社会偏见提供有价值的指导。本文所提供的结果和建议可使机器学习界受益，并促进在各种应用和研究努力中开发更加公平和无偏的人工智能模型。

Sep, 2023

多模态偏见：在视觉语言模型中引入一个能评估除性别和种族以外刻板印象的框架

本文提出了一个名为 MMBias 的基准数据集，用于评估自我监督多模态模型中的偏差，并介绍了一种旨在缓解偏差的去偏置方法。

Mar, 2023

使用反事实例探究和减轻视觉 - 语言模型中的交叉社会偏见

使用文本到图像扩散模型在规模上生成对抗实例，以探测和缓解视觉 - 语言模型中的交叉社会偏见。

Nov, 2023