ImageNet 与 LAION 的差异
本文提出了一种算法链,能够对规模为 20 亿张图片的 LAION-2B 数据集进行有效的重复检测,并揭示了大量的版权问题,能够充分解决当前模型训练时所遇到的问题。
Mar, 2023
在这篇研究中,通过构建一个包含真实背景上的动物照片的真实世界数据集 CounterAnimal,评估了大规模视觉语言模型 CLIPs 在应对背景引起的干扰时的性能。实验发现,CLIPs 在不同背景下的性能存在显著下降,而 ImageNet 上单模态模型的稳健性更高。研究结果提示 CLIPs 在分布转换下仍面临问题,同时也需要在对规模和分布相差较大的基础模型进行评估时保持谨慎。
Mar, 2024
LAION-5B 是一个包含了 58.5 亿组图像 - 文本对的数据集,许多基础的模型如 CLIP、GLIDE 和 Stable Diffusion 成功地使用了该数据集进行复现和微调,这个数据集的开放也将推动更多基于大规模多模型的研究。
Oct, 2022
提出并演示了基于锚点数据集的提取方法,结合进一步过滤,用于卫星图像领域,从网络中获取高像素分辨率的文本和卫星图像对数据集 LAION-EO。论文概述了采集流程和数据集的一些特征。
Sep, 2023
这篇文章介绍了一个公共的数据集 LAION-400M,包含了 CLIP 过滤后的 4 亿对图片 - 文本配对、它们对应的 CLIP 嵌入以及 kNN 索引,能用于训练多模式语言视觉模型,进行零样本或少样本学习和迁移。
Nov, 2021
本文研究了图像检索方法中预训练模型的应用,提出了一种基于 CLIP 模型从联合文本和视觉特征提取像素类描述符的方法,采用部分原型随机选择以及特征维度随机选择的方法来提高特征表示和冲突鲁棒性,最终在多个基准测试中取得了超过现有方法的性能表现。
Apr, 2023
探究六种公开数据来源 ——YFCC、LAION、Conceptual Captions、WIT、RedCaps、Shutterstock—— 对 CLIP 进行预训练的分布移位是否会对性能产生影响,发现不同的预训练数据表现相差很大,并且多个数据源的组合并不一定产生更好的模型,提出从理论和实践两方面着手进行数据集设计以实现稳健一般化训练的需求。
Aug, 2022
通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在 38 个任务中,对于 ImageNet 表现比 DataComp 基准提高 2%, 平均值提高 4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准的性能并不可靠,还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。
Jul, 2023