使用反事实例子来探究视觉语言模型中的交叉偏见
通过对现有的大规模视觉 - 语言模型进行大规模研究,我们发现社会属性,如种族、性别和形象特征,可以显著影响生成的有害内容、能力相关词汇、有害刻板印象和被描述个体的评分,同时也探讨了大规模视觉 - 语言模型和对应的语言模型之间的社会偏见关系和减缓偏见的推理策略。
May, 2024
通过对不同的大型视觉 - 语言模型(LVLMs)生成的文本进行大规模研究,我们发现输入图像中所描绘的社会属性(如种族、性别和外貌特征),能够显著地影响生成文本的毒性和与能力相关的词汇。
Mar, 2024
本研究针对 Vision-Language Pre-training(VLP)模型的社会偏见问题,提出了一种基于反事实的偏见测量方法 CounterBias、构建了一个包含 24K 图像 - 文本对的新颖 VL-Bias 数据集并在其中观察到了 VLP 模型中普遍存在的显著性别偏见,提出了最小化 VLP 去偏差的思路 FairVLP。
Jul, 2022
这篇论文介绍了 GenderBias-VL 基准测试,通过使用反事实视觉问题评估 LVLMs 中与职业相关的性别偏见,以个体公平标准为基准。该基准测试包含 34,581 个视觉问题反事实对,涵盖了 177 个职业,发现现有的 LVLMs 普遍存在性别偏见。
Jun, 2024
通过构建统一的框架系统评估大规模视觉语言模型中的性别职业偏见,我们在不同输入输出模态下的基准测试中观察到不同的偏见程度和方向,希望我们的工作能指导未来改进视觉语言模型以学习社会上没有偏见的表示方式。
Feb, 2024
通过查询大规模视觉语言模型,我们观察到在输入图像中人物的性别和种族上存在显著差异,针对此问题我们提出了新的数据集 PAIRS (每日场景的平行图像),并研究了大规模视觉语言模型中的性别和种族偏见。
Feb, 2024
图像模型的嵌入空间已经被证明可以编码一系列的社会偏见,该研究调查了对于视觉转换器(ViT)中出现这些偏见的具体因素,并测量了训练数据、模型架构和训练目标对 ViTs 学习表示中的社会偏见的影响。研究结果表明,基于反事实增强训练的扩散式图像编辑可以缓解偏见,但并不能完全消除;而且,相较于小模型,我们发现大模型的偏见较少,并且使用辨别目标进行训练的模型比使用生成目标进行训练的模型偏见较少。此外,我们观察到学习到的社会偏见存在不一致性,令人惊讶的是,当使用不同的自监督目标在相同数据集上训练时,ViTs 可能表现出相反的偏见。我们的发现揭示了导致社会偏见出现的因素,并提出了基于模型设计选择可以实现相当大程度的公平改善。
Aug, 2023
本文介绍了一种方法,通过以独立方式修改交叉注意力图,解决了扩散式文本到图像模型中的交叉偏见问题。实验结果表明,我们的方法在减轻各种属性上的单一和交叉偏见方面超越了现有方法,并提供了我们的源代码和去偏模型以促进生成模型的公平性和支持进一步的研究。
Mar, 2024
本文提出了一种使用编码器 - 解码器网络开发的人脸图像合成方法,以测量商业计算机视觉分类器的反事实公平性,并报告了在线搜索服务中与职业相关的关键字中出现的偏向性,用以解释模型偏差的来源。
May, 2020