公平去重：在语义数据集去重中检测和减轻视觉语言公平性差异

CVPRApr, 2024

公平去重：在语义数据集去重中检测和减轻视觉语言公平性差异

FairDeDup: Detecting and Mitigating Vision-Language Fairness Disparities in Semantic Dataset Deduplication

Eric Slyman, Stefan Lee, Scott Cohen, Kushal Kafle

TL;DR通过数据集去重技术，以及针对包含社会偏见的图像 - 描述数据集的剪枝技术，本研究评估去重对训练模型中偏见的影响，并提出了一种易于实施的修改后的 SemDeDup 算法，以减少这些负面影响，实验证明我们提出的 FairDeDup 算法在 FairFace 和 FACET 数据集上提供了更好的公平性指标，并保持了 CLIP benchmark 的零 - shot 性能。

Abstract

Recent dataset deduplication techniques have demonstrated that content-aware dataset pruning can dramatically reduce the cost of training Vision-Language Pretrained (VLP) models without significant performance losses compared to training on the original dataset. These results have been

dataset deduplication content-aware pruning vision-language pretrained models harmful social biases fairdedup algorithm

发现论文，激发创造

通过语义去重实现大规模数据高效学习

使用预训练模型中的嵌入来识别和删除语义重复项 SemDeDup，可以在保留性能和提高超出分布的模型表现的同时，删除数据中约 50％的语义重复项。

Mar, 2023

FairCLIP: 在视觉语言学习中利用公平性

公平性对于深度学习至关重要，尤其是在医疗领域，因为这些模型会影响诊断和治疗决策。本研究介绍了第一个公平的医学视觉语言数据集 FairVLMed，通过提供详细的人口属性、真实标签和临床笔记来深入研究视觉语言基础模型内的公平性。使用 FairVLMed，我们对两个广泛使用的视觉语言模型（CLIP 和 BLIP2）进行了全面的公平性分析，这两个模型分别在自然和医学领域进行了预训练，并跨越了四个不同的受保护属性。研究结果显示，所有视觉语言模型都存在显著偏见，其中亚洲人、男性、非西班牙裔和西班牙语为种族、性别、民族和语言方面的首选子群体。为了减轻这些偏见，我们提出了一种基于最优输运的方法 FairCLIP，通过减小整体样本分布和相应人口群体分布之间的 Sinkhorn 距离，在性能和公平性之间实现了有利的权衡。作为首个类似数据集，FairVLMed 有潜力促进开发既具有道德意识又具有临床有效性的机器学习模型的进步。

Mar, 2024

CLIPping the Deception: 转变视觉语言模型以适应通用深度伪造检测

该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性，结果表明，保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略，使用较少的训练数据（20 万张图像，相较于 72 万张），在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中，该模型展现了在包括基于 GANs、基于 Diffusion 和商业工具生成的图像中的实际适用性。

Feb, 2024

利用 CLIP 进行敏感信息推断和模型公平性改进

通过使用 CLIP 模型作为丰富的知识源来推断敏感信息，我们在图像和语言嵌入派生的相似度上进行样本聚类，并评估其与真实属性分布的一致性，然后通过重新采样和增强性能较差的聚类来训练目标模型，实验结果表明，该模型在多个基准偏见数据集上取得了明显的公平性改善，说明 CLIP 可以提取受语言触发的区分性敏感信息，用于推动模型公平性。

Mar, 2024

SIEVE: 利用图像字幕模型进行多模态数据集修剪

使用图像 - 文本模型预训练的数据集来对模型进行裁剪是一种成功的方法，但它存在一些限制。为解决这些问题，我们提出了一种名为 SIEVE 的方法，它使用由经过预训练的图像 - 文本模型生成的合成标题来评估图像 - 文本对的一致性，并在大规模和中等规模的数据集上取得了最先进的性能。

Oct, 2023

测量和消除视觉语言预训练模型中的社会偏见

本研究针对 Vision-Language Pre-training（VLP）模型的社会偏见问题，提出了一种基于反事实的偏见测量方法 CounterBias、构建了一个包含 24K 图像 - 文本对的新颖 VL-Bias 数据集并在其中观察到了 VLP 模型中普遍存在的显著性别偏见，提出了最小化 VLP 去偏差的思路 FairVLP。

Jul, 2022

利用视觉语言驱动的图像增强提高公平性

本文提出了一种方法，通过学习语义空间中可解释和有意义的路径来减轻深度学习区分模型中的相关性，以提高公平性。通过编辑受保护特征（如年龄和肤色），将这些路径应用于增强图像，从而改善给定数据集的公平性。

Nov, 2023

关于 LAION-2B 数据去重的研究

本文提出了一种算法链，能够对规模为 20 亿张图片的 LAION-2B 数据集进行有效的重复检测，并揭示了大量的版权问题，能够充分解决当前模型训练时所遇到的问题。

Mar, 2023

平衡画面：利用合成对比集去偏置视觉 - 语言数据集

通过提出一个新颖的数据处理流程来纠正常用公平度量工具 (Bias@K) 存在偏见且不精确的问题。该流程通过提供一组性别平衡的对比集来扩充 COCO Captions 数据集，我们基于此数据集证明了在多个基于 CLIP 的模型中偏差的存在，表明了性别与图像背景之间毫无意义的相关性。最终，我们基于这些结果证明了我们的方法可以提高 Bias@K 的可靠度，从而对相关社会科学进行更准确的预测。

May, 2023

他们都是医生：合成各种对抗偏见的反事实案例

通过生成合成的反事实图像集合，采用脱节模型训练方法来改善 Vision Language Models（VLMs）的公平性和性能。

Jun, 2024