通过对抗学习使用提示数组消除偏差：使视觉语言模型消除偏差

ACLMar, 2022

通过对抗学习使用提示数组消除偏差：使视觉语言模型消除偏差

A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models with Adversarial Learning

Hugo Berg, Siobhan Mackenzie Hall, Yash Bhalgat, Wonsuk Yang, Hannah Rose Kirk...

TL;DR研究表明，视觉 - 语言模型存在社会偏见和刻板印象，但由于缺乏测量鲁棒性和特征退化的挑战，因此需要通过排名指标和去偏方法来弥补这些多模式伤害，并发现将经过联合训练的对抗去偏和对比损失的学习嵌入附加在文本查询之前，可降低各种偏差度量，对图文表示的降级最小。

Abstract

vision-language models can encode societal biases and stereotypes, but there are challenges to measuring and mitigating these multimodal harms due to lacking measurement robustness and feature degradation. To address these challenges, we investigate →

vision-language models bias measures ranking metrics debiasing methods adversarial debiasing

发现论文，激发创造

测量和消除视觉语言预训练模型中的社会偏见

本研究针对 Vision-Language Pre-training（VLP）模型的社会偏见问题，提出了一种基于反事实的偏见测量方法 CounterBias、构建了一个包含 24K 图像 - 文本对的新颖 VL-Bias 数据集并在其中观察到了 VLP 模型中普遍存在的显著性别偏见，提出了最小化 VLP 去偏差的思路 FairVLP。

Jul, 2022

消除大型视觉语言模型中的偏见

在计算机视觉和自然语言处理领域，本研究重要不可或缺的工具是大型视觉 - 语言模型（LVLMs），它们能够根据视觉输入生成文本描述。然而，我们的调查发现生成的内容存在显著的偏见，主要受到底层大型语言模型（LLMs）的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息，我们提出了两种简单且无需训练的策略。首先，对于分类或多项选择问题回答（QA）等任务，我们通过仿射变换提出了一个 “校准” 步骤来调整输出分布。这种 “事后去偏” 的方法确保了当图像不存在时每个答案都具有均匀的分数，作为一种有效的正则化技术以减轻 LLM 先验的影响。对于更复杂的开放式生成任务，我们将这种方法扩展为 “去偏抽样”，借鉴了对比解码方法的灵感。此外，我们的研究还揭示了 LVLMs 在不同解码配置下的不稳定性，通过对不同设置的系统性探索，我们显著提高了性能，超过了现有评估结果，并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象，还有助于生成更有用和准确的插图。

Mar, 2024

潜在方向：生成式人工智能中的偏见缓解简单路径

通过学习潜在空间中的方向并仅修改扩散过程中提供的初始高斯噪声，我们的工作引入了一种新方法，实现多样性和包容性合成图像，这成功地适应了各种去偏差场景，如地理偏差。

Jun, 2024

平衡画面：利用合成对比集去偏置视觉 - 语言数据集

通过提出一个新颖的数据处理流程来纠正常用公平度量工具 (Bias@K) 存在偏见且不精确的问题。该流程通过提供一组性别平衡的对比集来扩充 COCO Captions 数据集，我们基于此数据集证明了在多个基于 CLIP 的模型中偏差的存在，表明了性别与图像背景之间毫无意义的相关性。最终，我们基于这些结果证明了我们的方法可以提高 Bias@K 的可靠度，从而对相关社会科学进行更准确的预测。

May, 2023

图像胜过言辞：从因果中介视角理解和减轻视觉语言模型中的偏见

通过因果中介分析，我们提出了一个框架，来测量和映射在视觉 - 语言模型中生成和传播偏见的路径，结果显示图像特征是偏见的主要贡献者，对模型偏见的减轻起到重要作用，同时能保持性能稳定。

Jul, 2024

视觉 - 语言模型上的少样本对抗性提示学习

通过限制数据和提供对抗文本监督，提出了一种少样本对抗提示框架，该框架在提高对抗鲁棒性方面表现出卓越的能力，并在仅使用 1％的训练数据时，达到了与最先进的零样本对抗鲁棒性相匹配的水平。

Mar, 2024

从偏见到平等：消除大型语言模型词向量偏差的新方法

我们提出了 DeepSoftDebias 算法，该算法使用神经网络执行 “软去偏见”，并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。

Feb, 2024

文本图像模型分析偏差的单词级解释

本文的研究目的是探讨文本转图像模型（T2I）如何在生成图像时通过特定的单词体现出种族和性别的偏见，作者通过遮蔽语言模型计算各单词的影响得分，实验结果表明该方法能够用于识别生成图像中的社会刻板印象。

Jun, 2023

视觉语言模型中的社会偏见调查

近年来，机器学习模型，特别是基于 Transformer 的预训练模型，对自然语言处理和计算机视觉领域产生了革命性的进展。然而，研究人员发现这些模型可能无意中捕捉和强化其训练数据集中存在的社会偏见，导致资源分配不平等和特定社会群体的不公平代表。解决这些偏见并确保人工智能系统的公平性已成为机器学习界关注的焦点。最近介绍的预训练视觉语言模型在新兴的多模态领域引起了人们对其中的社会偏见的关注。尽管视觉语言模型易受社会偏差影响，但对比自然语言处理和计算机视觉领域中广泛讨论的偏见而言，对此了解有限。本调查旨在向研究人员提供关于 NLP、CV 和 VL 领域中预训练模型社会偏见研究的高层次见解。通过检查这些观点，本调查旨在为单模态和多模态环境下如何应对和减轻社会偏见提供有价值的指导。本文所提供的结果和建议可使机器学习界受益，并促进在各种应用和研究努力中开发更加公平和无偏的人工智能模型。

Sep, 2023

基于提示的多任务学习中社交偏见的测量

本论文探讨了在多任务文本生成模型中，使用问题 - 答案格式输入与前提 - 假设格式输入是否会影响模型的社会偏见，并使用两个基准测试评估了 T0 模型在其中的表现，结果表明前者会使得模型表现出更多的社会偏见。

May, 2022