关于 LAION-2B 数据去重的研究

Mar, 2023

On the De-duplication of LAION-2B

Ryan Webster, Julien Rabin, Loic Simon, Frederic Jurie

TL;DR本文提出了一种算法链，能够对规模为 20 亿张图片的 LAION-2B 数据集进行有效的重复检测，并揭示了大量的版权问题，能够充分解决当前模型训练时所遇到的问题。

Abstract

generative models, such as DALL-E, Midjourney, and Stable Diffusion, have societal implications that extend beyond the field of computer science. These models require large image databases like LAION-2B, which co

generative models large image databases automated analysis duplicate detection copyright

发现论文，激发创造

LAION-5B: 用于训练下一代图像 - 文本模型的大规模开放数据集

LAION-5B 是一个包含了 58.5 亿组图像 - 文本对的数据集，许多基础的模型如 CLIP、GLIDE 和 Stable Diffusion 成功地使用了该数据集进行复现和微调，这个数据集的开放也将推动更多基于大规模多模型的研究。

Oct, 2022

LAION-400M：CLIP 过滤的 4 亿张图文对开放数据集

这篇文章介绍了一个公共的数据集 LAION-400M，包含了 CLIP 过滤后的 4 亿对图片 - 文本配对、它们对应的 CLIP 嵌入以及 kNN 索引，能用于训练多模式语言视觉模型，进行零样本或少样本学习和迁移。

Nov, 2021

从 LAION-5B 到 LAION-EO：使用锚定数据集过滤数十亿张图像进行卫星图像提取

提出并演示了基于锚点数据集的提取方法，结合进一步过滤，用于卫星图像领域，从网络中获取高像素分辨率的文本和卫星图像对数据集 LAION-EO。论文概述了采集流程和数据集的一些特征。

Sep, 2023

公平去重：在语义数据集去重中检测和减轻视觉语言公平性差异

通过数据集去重技术，以及针对包含社会偏见的图像 - 描述数据集的剪枝技术，本研究评估去重对训练模型中偏见的影响，并提出了一种易于实施的修改后的 SemDeDup 算法，以减少这些负面影响，实验证明我们提出的 FairDeDup 算法在 FairFace 和 FACET 数据集上提供了更好的公平性指标，并保持了 CLIP benchmark 的零 - shot 性能。

Apr, 2024

CommonCanvas: 一个用 Creative-Commons 图像训练的开放扩散模型

我们使用一种直观的迁移学习技术来生成一组与策划的创意共享图片相关的高质量合成标题，采用一种数据和计算高效的训练方法培训出高质量的文本到图片模型，并发布了这些模型、数据和代码。

Oct, 2023

ImageNet 与 LAION 的差异

通过仅基于图像标题搜索 LAION 数据集对 ImageNet 进行重建，我们发现重建后的数据集 LAIONet 与原始数据集有很大区别，同时提出数据生成过程的微小但重要差异以解释这种不一致性。

Jun, 2023

通过语义去重实现大规模数据高效学习

使用预训练模型中的嵌入来识别和删除语义重复项 SemDeDup，可以在保留性能和提高超出分布的模型表现的同时，删除数据中约 50％的语义重复项。

Mar, 2023

通过广义字幕和双重融合增强降低扩散模型中的复制和复制行为

使用扩展语言模型和双重融合增强方法，本研究提出的方法可以显著减少扩散模型的复制行为，仅相比原始的扩散模型减少了 43.5%，同时保持了生成图像的多样性和质量。

Sep, 2023

基于概念聚类复杂性的大规模网络数据集的有效剪枝

利用大规模网络数据集进行训练会消耗可观的计算资源，本文研究通过修剪大规模多模态数据集来提高训练效率，并通过筛选高质量数据集以降低训练成本，从而在 ImageNet 数据集上取得了更好的性能。

Jan, 2024

针对 CrowdAI 贴图挑战赛数据集的大规模图像去重和泄漏检测

通过使用感知哈希技术的 drop-in pipeline，有效地去重和排查数据泄露问题来评估 CrowdAI Mapping Challenge 数据集的质量。实验结果表明，该数据集中近 90% 的训练样本是相同的，且该数据集存在 93% 的数据泄露问题。

Apr, 2023