多模态数据集：厌女、色情和恶性刻板印象 | BriefGPT - AI 论文速递

Oct, 2021

多模态数据集：厌女、色情和恶性刻板印象

Multimodal datasets: misogyny, pornography, and malignant stereotypes

Abeba Birhane, Vinay Uday Prabhu, Emmanuel Kahembwe

TL;DR本文报道了一个规模为 400M 的过滤了不良内容的图像 - alt 文本数据集，该数据集在生成大规模机器学习模型时可能存在的问题和潜在涉及的利益攸关者（包括 AI 社区、监管机构、政策制定者和数据主体）的问题。

Abstract

We have now entered the era of trillion parameter machine learning models trained on billion-sized datasets scraped from the internet. The rise of these gargantuan datasets has given rise to formidable bodies of

trillion parameter machine learning models billion-sized datasets dataset curation practices problematic content large-scale biases

发现论文，激发创造

LAION-5B: 用于训练下一代图像 - 文本模型的大规模开放数据集

LAION-5B 是一个包含了 58.5 亿组图像 - 文本对的数据集，许多基础的模型如 CLIP、GLIDE 和 Stable Diffusion 成功地使用了该数据集进行复现和微调，这个数据集的开放也将推动更多基于大规模多模型的研究。

Oct, 2022

LAION-400M：CLIP 过滤的 4 亿张图文对开放数据集

这篇文章介绍了一个公共的数据集 LAION-400M，包含了 CLIP 过滤后的 4 亿对图片 - 文本配对、它们对应的 CLIP 嵌入以及 kNN 索引，能用于训练多模式语言视觉模型，进行零样本或少样本学习和迁移。

Nov, 2021

大规模图像数据集：计算机视觉的短暂胜利？

该研究调查了大规模视觉数据集的问题性实践和后果，并提出了采集数据集时应该考虑的伦理问题，包括同意和公正问题，以及诸如图像集中是否包含可验证色情图片的具体问题。同时，该论文根据实验和统计数据来阐明了数据集整理中的伦理原则和应该避免的陷阱，呼吁建立强制的伦理审查委员会。

Jun, 2020

创建图像和文本混合数据集以研究辱骂语言

使用 CREENDER 开发了一个注释工具，用于创建图像和滥用评论的多模态数据集，该数据集在不同角度被分析，发现图像中是否存在人会增加触发攻击性评论的概率。

May, 2020

未经筛选的图像 - 文本数据集：揭示人口特征偏见

我们研究了在视觉和语言模型训练中使用大型未筛选数据集的不公平表现，以及如何应对这个问题，研究发现社会偏见在图像生成、图像描述和图像文本嵌入等视觉语言任务中都是一个持续而普遍的问题。

Apr, 2023

谁在内部谁在外部？DataComp 中多模态 CLIP 过滤的案例研究

我们的研究发现，数据过滤方法在图像和文本领域也存在偏见和价值观，并且与一些边缘群体相关的数据更容易被排除。此外，我们还发现现有的数据过滤方法可能加剧数据收集中存在的不平衡问题，并且有必要对数据集的创建和过滤做出根本性的改变。

May, 2024

通过一个新的平行图像数据集研究大型视觉语言模型中的性别和种族偏见

通过查询大规模视觉语言模型，我们观察到在输入图像中人物的性别和种族上存在显著差异，针对此问题我们提出了新的数据集 PAIRS （每日场景的平行图像），并研究了大规模视觉语言模型中的性别和种族偏见。

Feb, 2024

缓解数据集的危害需要有管理：来自于 1000 篇论文的经验教训

探讨了机器学习数据集的隐私、偏差和伦理应用等方面的顾虑，并分析了三个有争议的人脸和人识别数据集的伦理问题，最后提出了分散化的方法来减少数据集生命周期中的伦理问题。

Aug, 2021

NewsCLIPpings: 自动生成多模态媒体的脱离上下文内容

提出了一个自动检测图像和文本不一致性的数据集，并在其基础上测试了几种多模态模型的性能，这对于解决在线虚假信息问题和对抗深度伪造等具有重要意义。

Apr, 2021

DialogCC：大规模多模态对话数据集

本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道，使用这个管道，我们提出了一个大规模的多模态对话数据集 DialogCC，并且通过广泛的实验结果表明，使用我们的数据集训练多模态对话模型可以改善泛化性能，与此同时，使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。

Dec, 2022