Jun, 2024

利用 LLaMA-3 对数十亿网络图像进行重新字幕

TL;DR通过使用 LLaMA-3 构建的 recaptioning pipeline,我们提供了一个改进的数据集 Recap-DataComp-1B,可以显著改善高级视觉语言模型的训练,包括 CLIP 和 text-to-image Diffusion Transformers。