揭示和纠正图像字幕数据集和模型中的性别偏见

Dec, 2019

揭示和纠正图像字幕数据集和模型中的性别偏见

Exposing and Correcting the Gender Bias in Image Captioning Datasets and Models

Shruti Bhargava, David Forsyth

TL;DR本文研究了 COCO 图像描述数据集中的性别偏见对训练模型的影响以及如何通过解耦图像描述和性别分类的方法来消除偏见。

Abstract

The task of image captioning implicitly involves gender identification. However, due to the gender bias in data, gender identification by an image captioning model suffers. Also, the gender-activity bias, owing t

gender bias image captioning coco dataset gender-neutral gender classification

发现论文，激发创造

模型无关性别去偏见图像描述

本文提出名为 LIBRA 的框架，通过学习从合成有偏差的样本中减少性别偏见，从而降低图像字幕模型中的两种性别偏见类型：利用上下文以预测性别的偏见以及因性别导致生成某些（通常是刻板印象的）词语的概率的偏见。

Apr, 2023

女性也滑雪板：克服标题模型中的偏见 (摘要)

本研究介绍一种称为 Equalizer 的新方法，它可以确保在场景中遮挡性别证据时具有平等的性别概率，并在存在性别证据时具有自信的预测，以减轻描述数据集中不想要的偏见的影响。此模型在描述含人物的图像时预测其性别的错误率低于以前的工作，并更接近包括女性句子和包括男性句子的语句的实际比率。

Jul, 2018

女性也滑雪板：克服字幕模型中的偏见

本文介绍一种新的 Equalizer 模型，该模型生成基于个体外貌或图像环境的性别特定字幕单词，并使用 “外貌混淆损失” 和 “自信损失” 缓解了描述数据集中不必要的偏差影响，从而实现了目标当性别信息模糊时，模型需要看人物而不是使用语境线索来制定性别特定的预测。

Mar, 2018

图像字幕中的种族偏见理解和评估

本研究分析了图像描述中的社会偏见以及种族偏见，具体关注于 COCO 数据集中的感知性别和肤色标注等因素。结果表明图像描述模型对于不同肤色的人物的表述、情感和词汇选择存在差异，并发现这种差异在现代模型中更加明显。

Jun, 2021

自动评估指标中的性别偏见：以图像字幕为例的案例研究

本论文通过系统的调研，研究发现了预训练模型存在性别偏见的问题，探讨了预训练模型在图像字幕生成任务中的公平性影响，并提出了一种针对这种问题的解决方案：结合 n-gram 匹配和预训练模型评估度量，以减少性别偏见的影响。

May, 2023

AI 系统公平性：缓解语言视觉模型中的性别偏见

本研究尝试减轻语言视觉模型中的性别偏见问题，通过研究现有数据集中性别偏见的影响程度，并提出一种缓解方法。

May, 2023

平衡画面：利用合成对比集去偏置视觉 - 语言数据集

通过提出一个新颖的数据处理流程来纠正常用公平度量工具 (Bias@K) 存在偏见且不精确的问题。该流程通过提供一组性别平衡的对比集来扩充 COCO Captions 数据集，我们基于此数据集证明了在多个基于 CLIP 的模型中偏差的存在，表明了性别与图像背景之间毫无意义的相关性。最终，我们基于这些结果证明了我们的方法可以提高 Bias@K 的可靠度，从而对相关社会科学进行更准确的预测。

May, 2023

平衡数据集并不足够：在深度图像表示中估计和缓解性别偏见

本文提出了一个框架来度量和降低视觉识别任务中与保护变量（例如性别）有关的固有偏差。通过采用对抗性方法来从深度神经网络中去除受保护变量的不想要的特征，我们展示了该方法的有效性，并在两个数据集上进行了实验。实验结果表明，在保持准确性的情况下，本方法减少了性别偏见的放大。

Nov, 2018

未经筛选的图像 - 文本数据集：揭示人口特征偏见

我们研究了在视觉和语言模型训练中使用大型未筛选数据集的不公平表现，以及如何应对这个问题，研究发现社会偏见在图像生成、图像描述和图像文本嵌入等视觉语言任务中都是一个持续而普遍的问题。

Apr, 2023

Men Also Like Shopping: 使用语料库级别的限制来减少性别偏见放大

通过 Lagrange 弛度算法，该研究加入语料库级别的限制条件来解决多标签物体分类和视觉语义角色标记中出现的性别偏见问题，成功地将性别偏见幅度下降了 47.5％和 40.5％，而识别任务的性能损失却很小。

Jul, 2017