LAION-5B 是一个包含了 58.5 亿组图像 - 文本对的数据集,许多基础的模型如 CLIP、GLIDE 和 Stable Diffusion 成功地使用了该数据集进行复现和微调,这个数据集的开放也将推动更多基于大规模多模型的研究。
Oct, 2022
这篇文章介绍了一个公共的数据集 LAION-400M,包含了 CLIP 过滤后的 4 亿对图片 - 文本配对、它们对应的 CLIP 嵌入以及 kNN 索引,能用于训练多模式语言视觉模型,进行零样本或少样本学习和迁移。
Nov, 2021
提出并演示了基于锚点数据集的提取方法,结合进一步过滤,用于卫星图像领域,从网络中获取高像素分辨率的文本和卫星图像对数据集 LAION-EO。论文概述了采集流程和数据集的一些特征。
Sep, 2023
通过数据集去重技术,以及针对包含社会偏见的图像 - 描述数据集的剪枝技术,本研究评估去重对训练模型中偏见的影响,并提出了一种易于实施的修改后的 SemDeDup 算法,以减少这些负面影响,实验证明我们提出的 FairDeDup 算法在 FairFace 和 FACET 数据集上提供了更好的公平性指标,并保持了 CLIP benchmark 的零 - shot 性能。
Apr, 2024
我们使用一种直观的迁移学习技术来生成一组与策划的创意共享图片相关的高质量合成标题,采用一种数据和计算高效的训练方法培训出高质量的文本到图片模型,并发布了这些模型、数据和代码。
Oct, 2023
通过仅基于图像标题搜索 LAION 数据集对 ImageNet 进行重建,我们发现重建后的数据集 LAIONet 与原始数据集有很大区别,同时提出数据生成过程的微小但重要差异以解释这种不一致性。
Jun, 2023
使用预训练模型中的嵌入来识别和删除语义重复项 SemDeDup,可以在保留性能和提高超出分布的模型表现的同时,删除数据中约 50%的语义重复项。
Mar, 2023
使用扩展语言模型和双重融合增强方法,本研究提出的方法可以显著减少扩散模型的复制行为,仅相比原始的扩散模型减少了 43.5%,同时保持了生成图像的多样性和质量。
利用大规模网络数据集进行训练会消耗可观的计算资源,本文研究通过修剪大规模多模态数据集来提高训练效率,并通过筛选高质量数据集以降低训练成本,从而在 ImageNet 数据集上取得了更好的性能。
Jan, 2024
通过使用感知哈希技术的 drop-in pipeline,有效地去重和排查数据泄露问题来评估 CrowdAI Mapping Challenge 数据集的质量。实验结果表明,该数据集中近 90% 的训练样本是相同的,且该数据集存在 93% 的数据泄露问题。
Apr, 2023