Flickr30K 数据集中的刻板印象和偏见

MMMay, 2016

Flickr30K 数据集中的刻板印象和偏见

Stereotyping and Bias in the Flickr30K Dataset

Emiel van Miltenburg

TL;DR本研究检验了 Flickr30K 数据集中众包图像描述假设仅关注可从图像本身获得的信息的假设，并提供偏见和未授权的推断列表，并讨论了在未来应用程序中如何处理以陈规为驱动的描述。

Abstract

An untested assumption behind the crowdsourced descriptions of the images in the flickr30k dataset (Young et al., 2014) is that they "focus only on the information that can be obtained from the image alone" (Hodosh et al., 2013, p. 859). This paper presents some evidence against this a

crowdsourcing flickr30k dataset stereotype bias image description

发现论文，激发创造

未经筛选的图像 - 文本数据集：揭示人口特征偏见

我们研究了在视觉和语言模型训练中使用大型未筛选数据集的不公平表现，以及如何应对这个问题，研究发现社会偏见在图像生成、图像描述和图像文本嵌入等视觉语言任务中都是一个持续而普遍的问题。

Apr, 2023

Flickr 非洲：大规模人类中心的视觉数据中的地理多样性研究

通过对非洲国家的地理标记的 Flickr 图像进行大规模分析，研究表明标准的互联网数据收集方法在低收入和中等收入国家存在局限性，需要进一步努力来捕捉非洲人和他们环境的图像数据，以改善计算机视觉模型在全球范围内的适用性。

Aug, 2023

通过无监督预训练学习的图像表示包含类人偏差

本文通过研究基于大规模未标记图像数据的机器学习方法，并发现其可能对种族，性别，体重，残疾和少数种族存在的偏见和刻板印象进行了分类和嵌入，从而证明了这些模型可能会自动学习社会偏见。

Oct, 2020

图像字幕中的种族偏见理解和评估

本研究分析了图像描述中的社会偏见以及种族偏见，具体关注于 COCO 数据集中的感知性别和肤色标注等因素。结果表明图像描述模型对于不同肤色的人物的表述、情感和词汇选择存在差异，并发现这种差异在现代模型中更加明显。

Jun, 2021

图像搜索中的公平性：职业定型在图片检索中的研究及其去偏见化方法

本研究聚焦于关键词图像搜索领域中的偏见和公平性问题，评估并减轻搜索结果中的性别职业刻板印象。通过使用开源和专有的 API 来确定图像的性别，我们提出了一种考虑到与指定关键词的相关性和公平性的公平感知排序算法，并在实验中证明其显著地提高了公平性分数和相关性分数。

May, 2023

跨数据集分析测试平台

本文开展了针对视觉图像识别中数据集偏见问题的大规模分析，通过将 12 个已有数据库组织成一个语料库，提供了一个有用的特征储存库以供未来研究使用。

Feb, 2014

看见不可见之物：视觉数据集中的错误和偏差

机器视觉算法对图像的处理和决策至关重要，但是数据集中的错误可能会导致认为黑人是大猩猩或搜索结果中误代表某些族裔，本文追踪数据集中的错误及其影响，揭示了一个缺陷的数据集可能是类别有限、数据来源不全和分类不当的结果。

Nov, 2022

语言引导的未知数据集偏差检测与减轻

在这项研究中，我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架，并进一步提出了两种去偏方法：(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法，以及 (b) 通过文本到图像生成模型进行数据增强，使用获得的偏见关键词作为提示。实验结果表明，尽管简单，我们的框架不仅能在没有先验知识的情况下胜过现有方法，而且甚至可以与假设有先验知识的方法媲美。

Jun, 2024

StereoKG: 基于数据驱动的文化知识与刻板印象知识图谱构建

本研究介绍了一种数据驱动的生成文化知识和刻板印象知识图谱的全流程，并进行了评估和训练，提高了模型的文化认知和对抗仇恨言论检测的性能。

May, 2022

少即是多：面部表情识别中的表征性与刻板性性别偏见

利用面部表情识别 (FER) 作为领域，通过分析性别人口的代表性和刻板性两种偏见，研究了数据集中的人口偏见对机器学习模型的传播情况。结果显示，代表性偏见对模型的影响较弱，而刻板性偏见具有显著的影响，主要集中在有偏见的类别上，尽管它也会影响无偏见类别的预测。这些结果强调了需要区分不同类型偏见的偏见分析，这对于有效的偏见缓解策略的开发至关重要。

Jun, 2024