Jun, 2023

StableRep: 文本到图像模型的合成图像为强视觉表示学习者

TL;DR本研究探讨使用由文本到图像模型生成的合成图像学习视觉表示的潜力,提出一种多正对比学习方法,称为 StableRep。使用 20M 个合成图像训练的 StableRep 表现优于使用相同文本提示和对应真实图像的 SimCLR 和 CLIP 学习的表示,在大规模数据集上,加入语言监督之后, StableRep 的性能优于使用 50M 真实图像训练的 CLIP。