预训练的文本到图像扩散模型是多用途控制表征学习器
本研究探讨使用由文本到图像模型生成的合成图像学习视觉表示的潜力,提出一种多正对比学习方法,称为 StableRep。使用 20M 个合成图像训练的 StableRep 表现优于使用相同文本提示和对应真实图像的 SimCLR 和 CLIP 学习的表示,在大规模数据集上,加入语言监督之后, StableRep 的性能优于使用 50M 真实图像训练的 CLIP。
Jun, 2023
该论文提出了一种名为 DSD 的创新方法,它利用预训练的 text-to-image 扩散模型进行少样本判别性学习,并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响,并通过基于注意力的提示学习对模型进行微调,实现图文匹配,并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。
May, 2023
提出一种神经网络框架 ControlNet 来控制大型预训练扩散模型以支持额外的输入条件,该模型能够以端到端的方式学习任务特定条件,并且学习具有鲁棒性,即使训练数据集很小(<50k);此外,训练 ControlNet 的速度与调整扩散模型的速度相同,模型可以在个人设备上训练。也可以在强大的计算集群上进行训练,适用于大量(数百万至数十亿)的数据;控制网络可以与大型扩散模型一起使用,以启用诸如边缘地图、分割地图、关键点等条件输入,进一步丰富了控制大型扩散模型的方法,促进了相关应用的发展。
Feb, 2023
本文提出了一种支持多模态控制的主题驱动图像生成模型 BLIP-Diffusion,其中引入了一个新的多模态编码器进行图像和文本的表示。相对于 DreamBooth 等现有方法,该模型使的主题驱动生成零 - shot 成为可能,并且可以高效地进行 fine-tuning,为自定义主题带来了高达 20 倍的加速。同时,BLIP-Diffusion 可以与 ControlNet 和 prompt-to-prompt 等技术灵活结合,实现新的主题驱动生成和编辑应用。
May, 2023
FreeControl 是一种无需训练的可控文本生成方法,支持多种条件、架构和检查点,并在定性和定量实验中展现了卓越性能。
Dec, 2023
该研究探讨了图像合成模型的细粒度、连续控制,提出了一种新的语义扩散引导统一框架,可以注入预训练的无条件扩散模型的语言或图像指导,并在 FFHQ 和 LSUN 数据集上进行了实验。
Dec, 2021
本文介绍了一种有效可扩展的算法,利用强化学习(RL)在各种奖励函数上改进扩散模型,包括人类偏好、组合性和公平性,从而有效地解决了扩散模型与人类偏好不一致的问题,同时提高了生成样本的组合性和多样性。
Jan, 2024
提出了一种新的任务,文本驱动的风格化图像生成,以进一步增强内容创造中的可编辑性,通过升级经过训练的文本到图像模型与可训练的调制网络,同时引入扩散样式和内容正则化,实现了高质量的风格化文本到图像生成。
Nov, 2023