Nov, 2021

RedCaps:由民众创建、为民众服务的网络图像文本数据

TL;DR通过 Reddit 收集了超过 1200 万个图像和文本对,构建了一个大规模的数据集,帮助机器学习模型学习生成富有多样性的图像描述并学习转换到许多下游任务,而无需使用复杂的筛选流程来保持数据质量。