未经筛选的图像 - 文本数据集：揭示人口特征偏见

CVPRApr, 2023

未经筛选的图像 - 文本数据集：揭示人口特征偏见

Uncurated Image-Text Datasets: Shedding Light on Demographic Bias

Noa Garcia, Yusuke Hirota, Yankun Wu, Yuta Nakashima

TL;DR我们研究了在视觉和语言模型训练中使用大型未筛选数据集的不公平表现，以及如何应对这个问题，研究发现社会偏见在图像生成、图像描述和图像文本嵌入等视觉语言任务中都是一个持续而普遍的问题。

Abstract

The increasing tendency to collect large and uncurated datasets to train vision-and-language models has raised concerns about fair representations. It is known that even small but manually →

fair representations societal bias vision-and-language models annotated datasets google conceptual captions dataset

发现论文，激发创造

图像字幕中的种族偏见理解和评估

本研究分析了图像描述中的社会偏见以及种族偏见，具体关注于 COCO 数据集中的感知性别和肤色标注等因素。结果表明图像描述模型对于不同肤色的人物的表述、情感和词汇选择存在差异，并发现这种差异在现代模型中更加明显。

Jun, 2021

语言引导的未知数据集偏差检测与减轻

在这项研究中，我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架，并进一步提出了两种去偏方法：(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法，以及 (b) 通过文本到图像生成模型进行数据增强，使用获得的偏见关键词作为提示。实验结果表明，尽管简单，我们的框架不仅能在没有先验知识的情况下胜过现有方法，而且甚至可以与假设有先验知识的方法媲美。

Jun, 2024

平衡画面：利用合成对比集去偏置视觉 - 语言数据集

通过提出一个新颖的数据处理流程来纠正常用公平度量工具 (Bias@K) 存在偏见且不精确的问题。该流程通过提供一组性别平衡的对比集来扩充 COCO Captions 数据集，我们基于此数据集证明了在多个基于 CLIP 的模型中偏差的存在，表明了性别与图像背景之间毫无意义的相关性。最终，我们基于这些结果证明了我们的方法可以提高 Bias@K 的可靠度，从而对相关社会科学进行更准确的预测。

May, 2023

审计 ImageNet：面向大规模图像数据集注释人口属性的模型驱动框架

该文章通过自动注释框架介绍了 2012 年 ImageNet 大规模视觉识别挑战 (ILSVRC) 子集和 ImageNet 的 “人物” 分层类别的人口统计学审计，发现 ILSVRC 中 41.62％的面孔为女性，1.71％的面孔年龄超过 60 岁，而 15-29 岁的男性占最大的 27.11％。该文章还指出注释模型存在偏见，希望成为未来开发无偏注释模型以及研究 ImageNet 中人口统计学不平衡影响的起点。

May, 2019

多模态数据集：厌女、色情和恶性刻板印象

本文报道了一个规模为 400M 的过滤了不良内容的图像 - alt 文本数据集，该数据集在生成大规模机器学习模型时可能存在的问题和潜在涉及的利益攸关者（包括 AI 社区、监管机构、政策制定者和数据主体）的问题。

Oct, 2021

Flickr30K 数据集中的刻板印象和偏见

本研究检验了 Flickr30K 数据集中众包图像描述假设仅关注可从图像本身获得的信息的假设，并提供偏见和未授权的推断列表，并讨论了在未来应用程序中如何处理以陈规为驱动的描述。

May, 2016

揭示和纠正图像字幕数据集和模型中的性别偏见

本文研究了 COCO 图像描述数据集中的性别偏见对训练模型的影响以及如何通过解耦图像描述和性别分类的方法来消除偏见。

Dec, 2019

使用文本 - 图像生成模型进行图像字幕的数据筛选

通过数据修剪的两种方法改进图像字幕生成，一种假设应该避免一些样本，另一种假设通过替换图像，使用最先进的 Stable Diffusion 模型，这些方法在 BLIP 模型上 MS COCO 和 Flickr30 k 中进行了评估。我们的方法一直优于基准，说明可以通过修剪现有资源来训练更好的图像字幕模型。最后，我们进行了人类研究，以了解稳定扩散模型的错误并突出未来的文本到图像之旅。

May, 2023

量化少数社会群体中偏见的数据集注解挑战

最近人工智能方面的进展，包括高度复杂的大型语言模型（LLM）的发展，已在许多实际应用中证明其益处。然而，这些 LLM 中存在的固有偏见的证据引发了对公平性的担忧。作为回应，涉及偏见的研究增加了，包括量化偏见和开发去偏技术的研究。针对二元性别分类和道德 / 种族考虑，还开发了基准偏见数据集，主要关注美国人口统计信息。然而，在了解和量化与少数族裔社会有关的偏见方面几乎没有研究。受对用于量化少数族裔社会偏见的注释数据集缺乏的启发，我们努力为新西兰（NZ）人口创建基准数据集。然而，尽管有三名注释者的数据，我们在这个过程中面临了许多挑战。这项研究概述了手动注释过程，概述了我们遇到的挑战和所学到的教训，并提出了未来研究的建议。

Sep, 2023

大规模图像数据集：计算机视觉的短暂胜利？

该研究调查了大规模视觉数据集的问题性实践和后果，并提出了采集数据集时应该考虑的伦理问题，包括同意和公正问题，以及诸如图像集中是否包含可验证色情图片的具体问题。同时，该论文根据实验和统计数据来阐明了数据集整理中的伦理原则和应该避免的陷阱，呼吁建立强制的伦理审查委员会。

Jun, 2020