Flickr30K 数据集中的刻板印象和偏见
我们研究了在视觉和语言模型训练中使用大型未筛选数据集的不公平表现,以及如何应对这个问题,研究发现社会偏见在图像生成、图像描述和图像文本嵌入等视觉语言任务中都是一个持续而普遍的问题。
Apr, 2023
通过对非洲国家的地理标记的 Flickr 图像进行大规模分析,研究表明标准的互联网数据收集方法在低收入和中等收入国家存在局限性,需要进一步努力来捕捉非洲人和他们环境的图像数据,以改善计算机视觉模型在全球范围内的适用性。
Aug, 2023
本文通过研究基于大规模未标记图像数据的机器学习方法,并发现其可能对种族,性别,体重,残疾和少数种族存在的偏见和刻板印象进行了分类和嵌入,从而证明了这些模型可能会自动学习社会偏见。
Oct, 2020
本研究分析了图像描述中的社会偏见以及种族偏见,具体关注于 COCO 数据集中的感知性别和肤色标注等因素。结果表明图像描述模型对于不同肤色的人物的表述、情感和词汇选择存在差异,并发现这种差异在现代模型中更加明显。
Jun, 2021
本研究聚焦于关键词图像搜索领域中的偏见和公平性问题,评估并减轻搜索结果中的性别职业刻板印象。通过使用开源和专有的 API 来确定图像的性别,我们提出了一种考虑到与指定关键词的相关性和公平性的公平感知排序算法,并在实验中证明其显著地提高了公平性分数和相关性分数。
May, 2023
机器视觉算法对图像的处理和决策至关重要,但是数据集中的错误可能会导致认为黑人是大猩猩或搜索结果中误代表某些族裔,本文追踪数据集中的错误及其影响,揭示了一个缺陷的数据集可能是类别有限、数据来源不全和分类不当的结果。
Nov, 2022
在这项研究中,我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架,并进一步提出了两种去偏方法:(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法,以及 (b) 通过文本到图像生成模型进行数据增强,使用获得的偏见关键词作为提示。实验结果表明,尽管简单,我们的框架不仅能在没有先验知识的情况下胜过现有方法,而且甚至可以与假设有先验知识的方法媲美。
Jun, 2024
本研究介绍了一种数据驱动的生成文化知识和刻板印象知识图谱的全流程,并进行了评估和训练,提高了模型的文化认知和对抗仇恨言论检测的性能。
May, 2022
利用面部表情识别 (FER) 作为领域,通过分析性别人口的代表性和刻板性两种偏见,研究了数据集中的人口偏见对机器学习模型的传播情况。结果显示,代表性偏见对模型的影响较弱,而刻板性偏见具有显著的影响,主要集中在有偏见的类别上,尽管它也会影响无偏见类别的预测。这些结果强调了需要区分不同类型偏见的偏见分析,这对于有效的偏见缓解策略的开发至关重要。
Jun, 2024