Nov, 2021

LAION-400M:CLIP 过滤的 4 亿张图文对开放数据集

TL;DR这篇文章介绍了一个公共的数据集 LAION-400M,包含了 CLIP 过滤后的 4 亿对图片 - 文本配对、它们对应的 CLIP 嵌入以及 kNN 索引,能用于训练多模式语言视觉模型,进行零样本或少样本学习和迁移。