ImageNet 与 LAION 的差异

Jun, 2023

What Makes ImageNet Look Unlike LAION

Ali Shirali, Moritz Hardt

TL;DR通过仅基于图像标题搜索 LAION 数据集对 ImageNet 进行重建，我们发现重建后的数据集 LAIONet 与原始数据集有很大区别，同时提出数据生成过程的微小但重要差异以解释这种不一致性。

Abstract

imagenet was famously created from Flickr image search results. What if we recreated imagenet instead by searching the massive laion dataset

imagenet laion dataset laionet intra-class similarity data-generating processes

发现论文，激发创造

关于 LAION-2B 数据去重的研究

本文提出了一种算法链，能够对规模为 20 亿张图片的 LAION-2B 数据集进行有效的重复检测，并揭示了大量的版权问题，能够充分解决当前模型训练时所遇到的问题。

Mar, 2023

CLIP 是否总是比 ImageNet 模型具有更好的泛化能力？

在这篇研究中，通过构建一个包含真实背景上的动物照片的真实世界数据集 CounterAnimal，评估了大规模视觉语言模型 CLIPs 在应对背景引起的干扰时的性能。实验发现，CLIPs 在不同背景下的性能存在显著下降，而 ImageNet 上单模态模型的稳健性更高。研究结果提示 CLIPs 在分布转换下仍面临问题，同时也需要在对规模和分布相差较大的基础模型进行评估时保持谨慎。

Mar, 2024

LAION-5B: 用于训练下一代图像 - 文本模型的大规模开放数据集

LAION-5B 是一个包含了 58.5 亿组图像 - 文本对的数据集，许多基础的模型如 CLIP、GLIDE 和 Stable Diffusion 成功地使用了该数据集进行复现和微调，这个数据集的开放也将推动更多基于大规模多模型的研究。

Oct, 2022

从 LAION-5B 到 LAION-EO：使用锚定数据集过滤数十亿张图像进行卫星图像提取

提出并演示了基于锚点数据集的提取方法，结合进一步过滤，用于卫星图像领域，从网络中获取高像素分辨率的文本和卫星图像对数据集 LAION-EO。论文概述了采集流程和数据集的一些特征。

Sep, 2023

LAION-400M：CLIP 过滤的 4 亿张图文对开放数据集

这篇文章介绍了一个公共的数据集 LAION-400M，包含了 CLIP 过滤后的 4 亿对图片 - 文本配对、它们对应的 CLIP 嵌入以及 kNN 索引，能用于训练多模式语言视觉模型，进行零样本或少样本学习和迁移。

Nov, 2021

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018

Unicom: 用于图像检索的通用紧凑表示学习

本文研究了图像检索方法中预训练模型的应用，提出了一种基于 CLIP 模型从联合文本和视觉特征提取像素类描述符的方法，采用部分原型随机选择以及特征维度随机选择的方法来提高特征表示和冲突鲁棒性，最终在多个基准测试中取得了超过现有方法的性能表现。

Apr, 2023

数据集设计与 CLIP 鲁棒性之间的交互作用：质量胜过数量

探究六种公开数据来源 ——YFCC、LAION、Conceptual Captions、WIT、RedCaps、Shutterstock—— 对 CLIP 进行预训练的分布移位是否会对性能产生影响，发现不同的预训练数据表现相差很大，并且多个数据源的组合并不一定产生更好的模型，提出从理论和实践两方面着手进行数据集设计以实现稳健一般化训练的需求。

Aug, 2022

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

通过图像描述的方式改进多模态数据集

通过探索不同的混合策略，我们发现合成字幕能够增加网络爬取数据点的效用，并且在 38 个任务中，对于 ImageNet 表现比 DataComp 基准提高 2%，平均值提高 4%。此外，我们发现使用合成字幕进行多模态训练时，标准图像字幕基准的性能并不可靠，还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。

Jul, 2023