预训练的文本到图像扩散模型是多用途控制表征学习器

May, 2024

预训练的文本到图像扩散模型是多用途控制表征学习器

Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control

Gunshi Gupta, Karmesh Yadav, Yarin Gal, Dhruv Batra, Zsolt Kira...

TL;DR使用预先训练的文本到图像扩散模型构建稳定的控制表示，从而实现细粒度场景理解和学习复杂控制策略。

Abstract

embodied ai agents require a fine-grained understanding of the physical world mediated through visual and language inputs. Such capabilities are difficult to learn solely from task-specific data. This has led to the emergence of →

embodied ai agents pre-trained vision-language models fine-grained scene understanding text-to-image diffusion models stable control representations

发现论文，激发创造

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

可控生成的文本 - 图像扩散模型：一份综述

在控制生成方面与文本到图像扩散模型的研究领域，通过调查文献并总结了控制性生成，包括基本概念和实践研究。

Mar, 2024

StableRep: 文本到图像模型的合成图像为强视觉表示学习者

本研究探讨使用由文本到图像模型生成的合成图像学习视觉表示的潜力，提出一种多正对比学习方法，称为 StableRep。使用 20M 个合成图像训练的 StableRep 表现优于使用相同文本提示和对应真实图像的 SimCLR 和 CLIP 学习的表示，在大规模数据集上，加入语言监督之后， StableRep 的性能优于使用 50M 真实图像训练的 CLIP。

Jun, 2023

区分性扩散模型作为几个少样本视觉和语言学习器

该论文提出了一种名为 DSD 的创新方法，它利用预训练的 text-to-image 扩散模型进行少样本判别性学习，并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响，并通过基于注意力的提示学习对模型进行微调，实现图文匹配，并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。

May, 2023

为文本 - 图像扩散模型添加条件控制

提出一种神经网络框架 ControlNet 来控制大型预训练扩散模型以支持额外的输入条件，该模型能够以端到端的方式学习任务特定条件，并且学习具有鲁棒性，即使训练数据集很小（<50k）；此外，训练 ControlNet 的速度与调整扩散模型的速度相同，模型可以在个人设备上训练。也可以在强大的计算集群上进行训练，适用于大量（数百万至数十亿）的数据；控制网络可以与大型扩散模型一起使用，以启用诸如边缘地图、分割地图、关键点等条件输入，进一步丰富了控制大型扩散模型的方法，促进了相关应用的发展。

Feb, 2023

BLIP-Diffusion: 预训练主体表示，用于可控文本到图像生成和编辑

本文提出了一种支持多模态控制的主题驱动图像生成模型 BLIP-Diffusion，其中引入了一个新的多模态编码器进行图像和文本的表示。相对于 DreamBooth 等现有方法，该模型使的主题驱动生成零 - shot 成为可能，并且可以高效地进行 fine-tuning，为自定义主题带来了高达 20 倍的加速。同时，BLIP-Diffusion 可以与 ControlNet 和 prompt-to-prompt 等技术灵活结合，实现新的主题驱动生成和编辑应用。

May, 2023

FreeControl：无需训练的任意文本到图像扩散模型的空间控制与任意条件

FreeControl 是一种无需训练的可控文本生成方法，支持多种条件、架构和检查点，并在定性和定量实验中展现了卓越性能。

Dec, 2023

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

大规模强化学习用于扩散模型

本文介绍了一种有效可扩展的算法，利用强化学习（RL）在各种奖励函数上改进扩散模型，包括人类偏好、组合性和公平性，从而有效地解决了扩散模型与人类偏好不一致的问题，同时提高了生成样本的组合性和多样性。

Jan, 2024

控制样式：使用扩散先验生成基于文本的风格化图像

提出了一种新的任务，文本驱动的风格化图像生成，以进一步增强内容创造中的可编辑性，通过升级经过训练的文本到图像模型与可训练的调制网络，同时引入扩散样式和内容正则化，实现了高质量的风格化文本到图像生成。

Nov, 2023