StableRep: 文本到图像模型的合成图像为强视觉表示学习者

Jun, 2023

StableRep: 文本到图像模型的合成图像为强视觉表示学习者

StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

Yonglong Tian, Lijie Fan, Phillip Isola, Huiwen Chang, Dilip Krishnan

TL;DR本研究探讨使用由文本到图像模型生成的合成图像学习视觉表示的潜力，提出一种多正对比学习方法，称为 StableRep。使用 20M 个合成图像训练的 StableRep 表现优于使用相同文本提示和对应真实图像的 SimCLR 和 CLIP 学习的表示，在大规模数据集上，加入语言监督之后， StableRep 的性能优于使用 50M 真实图像训练的 CLIP。

Abstract

We investigate the potential of learning visual representations using synthetic images generated by text-to-image models. This is a natura

learning visual representations synthetic images text-to-image models self-supervised methods multi-positive contrastive learning

发现论文，激发创造

假装自己做到了：从合成的 ImageNet 克隆模型中学习可迁移的表征

本研究通过研究使用 Stable Diffusion 生成的合成图像作为 ImageNet 分类训练模型的数据集对比实际图像，探讨在训练图像预测模型时实际图像是否已经被合成图像取代，并发现在某些标准模型分类基准下训练合成图像可以缩小与真实图像训练模型之间的差距，从而展示训练合成图像的模型优秀的概括泛化性能和传输表现。

Dec, 2022

多样性和扩散：对稳定扩散下合成图像分布的观察

通过对文本到图像系统的进展和合成图像在训练和推理过程中的不足进行研究，揭示了语义不匹配、多样性缺乏和表征基础概念的无能等问题，同时提出了对 CLIP 嵌入几何的令人惊讶的见解。

Oct, 2023

预训练的文本到图像扩散模型是多用途控制表征学习器

使用预先训练的文本到图像扩散模型构建稳定的控制表示，从而实现细粒度场景理解和学习复杂控制策略。

May, 2024

模型训练中的合成图像缩放定律…… 目前而言

通过研究最先进的文本到图像模型生成的合成图像在规模上的表现，本文发现合成图像在训练监督图像分类器时性能较差原因是某些概念无法被现成的文本到图像模型生成，但对于与真实图像结合训练 CLIP 模型或存在真实图像供给不足或评估数据集与训练数据差异较大的情况下，扩大合成数据规模可能特别有效。

Dec, 2023

FakeInversion: 通过反转稳定扩散学习检测从未见过的文本图像模型生成的图像

由于 GenAI 系统滥用的潜力很高，检测合成图像的任务最近备受研究界的关注。本文提出一种利用反转开源预训练的稳定扩散模型获取的特征的新型合成图像检测器。我们展示这些反转特征使得我们的检测器能够很好地泛化到高视觉保真度的未知生成器上（例如，DALL-E 3），即使该检测器仅在通过稳定扩散生成的低保真度伪图像上训练。这个检测器在多个训练和评估设置上取得了新的最先进水平。此外，我们引入了一种新的具有挑战性的评估协议，使用反向图像搜索来减轻检测器评估中的风格和主题偏见。我们展示所得的评估分数与检测器在野外的性能一致，并将这些数据集作为未来研究的公共基准发布。

Jun, 2024

多元化训练，不是微调：使用合成图像扩大视觉识别训练规模

通过在大型语言模型和 CLIP 的辅助下，使用生成模型生成合成训练图像来解决类名的歧义性、缺乏多样性的问题，并利用域适应技术和辅助批归一化来减轻领域偏移，以更好地提升模型识别性能。

Dec, 2023

反向稳定扩散：生成此图像所使用的提示是什么？

预测生成式扩散模型所生成图像的文本提示，采用联合回归和多标签词汇分类目标的新型学习框架，结合白盒和黑盒模型解决生成文本提示的问题，并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明，该学习框架在预测文本提示任务上取得了出色的结果，尤其在白盒模型上应用时效果最好，并发现在生成文本到图像时将该模型用于回收训练能够使生成的图像与输入提示更好地对齐。

Aug, 2023

CLIP 模型暗中是一种图像到提示的转换器

本文提出的方法，可以将图片转化为文本提示，从而解决了基于文本提示生成图片时难以整合隐含信息的问题。此方法可以简单灵活地处理各种任务，如图像变化和图像编辑。

May, 2023

StableQ：利用文本到图像数据增强数据稀缺量化

通过使用高级的文本到图像扩散模型生成高分辨率、逼真的合成数据，StableQ 方法在零样本和少样本量化方面取得了准确性和效率上的显著改进，通过逆向可学习的令牌嵌入来引导合成数据生成过程，解决了数据稀缺量化的挑战。

Dec, 2023

理解和减轻扩散模型中的复制现象

分析了文本到图像扩散模型中的记忆问题，提出了减少训练和推理时间中数据复制的几种技术。

May, 2023