视觉 Transformer 中的社会偏见的多维分析

Aug, 2023

视觉 Transformer 中的社会偏见的多维分析

A Multidimensional Analysis of Social Biases in Vision Transformers

Jannik Brinkmann, Paul Swoboda, Christian Bartelt

TL;DR图像模型的嵌入空间已经被证明可以编码一系列的社会偏见，该研究调查了对于视觉转换器（ViT）中出现这些偏见的具体因素，并测量了训练数据、模型架构和训练目标对 ViTs 学习表示中的社会偏见的影响。研究结果表明，基于反事实增强训练的扩散式图像编辑可以缓解偏见，但并不能完全消除；而且，相较于小模型，我们发现大模型的偏见较少，并且使用辨别目标进行训练的模型比使用生成目标进行训练的模型偏见较少。此外，我们观察到学习到的社会偏见存在不一致性，令人惊讶的是，当使用不同的自监督目标在相同数据集上训练时，ViTs 可能表现出相反的偏见。我们的发现揭示了导致社会偏见出现的因素，并提出了基于模型设计选择可以实现相当大程度的公平改善。

Abstract

The embedding spaces of image models have been shown to encode a range of social biases such as racism and sexism. Here, we investigate specific factors that contribute to the emergence of these biases in

embedding spaces social biases vision transformers training data model architecture

发现论文，激发创造

偏置注意力：视觉变换器是否比卷积神经网络更加放大性别偏见？

在计算机视觉中使用的深度神经网络已被证明存在许多社会偏见，如性别偏见。视觉 Transformer（ViTs）在图像分类等许多任务中比卷积神经网络（CNNs）表现更出色。然而，鉴于在计算机视觉中减轻偏见的研究主要集中在 CNNs 上，评估不同网络架构对偏见放大潜力的影响是重要的。因此，本文引入了一种新的度量方法来衡量架构中的偏见，即准确率差异。我们评估了这两种架构属于大型多模态模型的一部分时，偏见放大的情况，并评估了对比性语言图像预训练的不同图像编码器。我们的实验表明，由于在特征提取和嵌入以及不同的学习属性方面采用的不同技术，架构可以在放大社会偏见方面发挥作用。本研究发现，与 CNNs 相比，ViTs 更容易放大性别偏见。

Sep, 2023

视觉语言模型中的社会偏见调查

近年来，机器学习模型，特别是基于 Transformer 的预训练模型，对自然语言处理和计算机视觉领域产生了革命性的进展。然而，研究人员发现这些模型可能无意中捕捉和强化其训练数据集中存在的社会偏见，导致资源分配不平等和特定社会群体的不公平代表。解决这些偏见并确保人工智能系统的公平性已成为机器学习界关注的焦点。最近介绍的预训练视觉语言模型在新兴的多模态领域引起了人们对其中的社会偏见的关注。尽管视觉语言模型易受社会偏差影响，但对比自然语言处理和计算机视觉领域中广泛讨论的偏见而言，对此了解有限。本调查旨在向研究人员提供关于 NLP、CV 和 VL 领域中预训练模型社会偏见研究的高层次见解。通过检查这些观点，本调查旨在为单模态和多模态环境下如何应对和减轻社会偏见提供有价值的指导。本文所提供的结果和建议可使机器学习界受益，并促进在各种应用和研究努力中开发更加公平和无偏的人工智能模型。

Sep, 2023

使用反事实例探究和减轻视觉 - 语言模型中的交叉社会偏见

使用文本到图像扩散模型在规模上生成对抗实例，以探测和缓解视觉 - 语言模型中的交叉社会偏见。

Nov, 2023

使用反事实例子来探究视觉语言模型中的交叉偏见

通过使用文本到图像扩散模型和稳定扩散与交叉注意力控制方法，在产生大规模的反事实图像 - 文本对的基础上，揭示了现有的先进视觉 - 语言模型中存在的交叉社会偏差。

Oct, 2023

测量基于视觉和语言嵌入的社会偏见

通过引入 Grounded-WEAT 和 Grounded-SEAT 这些新的度量方式，我们对图片和语言的嵌入中存在的偏见进行了广义化的衡量，并通过实验的方法进行了验证；该研究对于构建公平的社会至关重要。

Feb, 2020

提升视觉 Transformer 的对抗传递性

本研究通过提出两种攻击策略，Self-Ensemble 和 Token Refinement，充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。

Jun, 2021

通过无监督预训练学习的图像表示包含类人偏差

本文通过研究基于大规模未标记图像数据的机器学习方法，并发现其可能对种族，性别，体重，残疾和少数种族存在的偏见和刻板印象进行了分类和嵌入，从而证明了这些模型可能会自动学习社会偏见。

Oct, 2020

TIBET: 文本到图像生成模型中的偏见识别和评估

我们提出了一种通用方法，通过反事实推理来研究和量化任何文本到图像生成模型和任何提示的广泛偏见和偏差，并以语义概念的形式扩展了定量评分。

Dec, 2023

量化文本到图像生成模型中的偏差

对比四种最新的文本到图像生成模型的基准偏差特征与各自变体，在社会偏见和一般偏见方面提出了三种评估方法，并将该方法应用于字幕图像数据集以衡量其偏见。

Dec, 2023

分析和减轻弱势群体偏见：迈向数据集的平衡代表性

通过对脆弱道路用户的分类不平衡、性能评估和偏见影响评估进行研究，我们提出了一种模型优化和偏见缓解的方法，包括数据增强、重采样和度量特定学习，以改善自动驾驶中感知系统的准确性和公正性。

Jan, 2024