BLIP-Diffusion: 预训练主体表示，用于可控文本到图像生成和编辑

May, 2023

BLIP-Diffusion: 预训练主体表示，用于可控文本到图像生成和编辑

BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing

Dongxu Li, Junnan Li, Steven C.H. Hoi

TL;DR本文提出了一种支持多模态控制的主题驱动图像生成模型 BLIP-Diffusion，其中引入了一个新的多模态编码器进行图像和文本的表示。相对于 DreamBooth 等现有方法，该模型使的主题驱动生成零 - shot 成为可能，并且可以高效地进行 fine-tuning，为自定义主题带来了高达 20 倍的加速。同时，BLIP-Diffusion 可以与 ControlNet 和 prompt-to-prompt 等技术灵活结合，实现新的主题驱动生成和编辑应用。

Abstract

Subject-driven text-to-image generation models create novel renditions of an input subject based on text prompts. Existing models suffer from lengthy fine-tuning and difficulties preserving the subject fidelity.

subject-driven generation text-to-image multimodal control blip-diffusion fine-tuning

发现论文，激发创造

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

DiffBlender: 可扩展和可组合的多模态文本到图像扩散模型

通过设计一种多模态文本到图像扩散模型（DiffBlender），可以同时引入多种不同类型的细节表达方式，如草图、盒子和风格嵌入等，不需要更改现有模型的参数，从而在单个模型中实现条件生成，并且通过量化和定性比较，将多模态生成的标准提高到了新的水平。

May, 2023

预训练的文本到图像扩散模型是多用途控制表征学习器

使用预先训练的文本到图像扩散模型构建稳定的控制表示，从而实现细粒度场景理解和学习复杂控制策略。

May, 2024

DiffusionCLIP: 文本引导下的扩散模型用于稳健的图像处理

该研究提出了一种名为 DiffusionCLIP 的新方法，该方法使用扩散模型进行文本驱动的图像操作，比现有基线表现更为优异，并允许简便的多属性操作。

Oct, 2021

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

eDiff-I：使用专家去噪模型集合的文本到图像扩散模型

该研究提出了一种基于扩散的生成模型，通过设计针对迭代生成过程的特殊模型，实现了更好的文本对齐，利用不同嵌入技术对模型进行调整，实现对参考图像风格进行自适应转换，并展示了一种 “文字涂鸦” 的技术，可帮助用户控制所需的图像输出。

Nov, 2022

CLIP-VQDiffusion: 基于 CLIP 和向量量化扩散模型的无语言训练文本生成图像

本文提出了利用预训练的 CLIP 模型来实现多模态文本 - 图像表示和强大的图像生成能力的 CLIP-VQDiffusion 模型，在 FFHQ 数据集上，该模型的 Clipscore 得分超过了之前最先进的方法 4.4%，并且即使在分布内外的情况下，生成的图像也非常逼真。

Mar, 2024

去扩散使文本成为强大的跨模态接口

我们展示了一种以文本作为强大的跨模态接口的方法，通过将图像表示为文本，利用自然语言的可解释性和灵活性，我们使用一个自动编码器，将输入图像转换为文本，并通过固定的文本到图像扩散解码器进行重构，该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性，使其可以轻松地被一般的文本到图像工具和 LLMs 接收，并可用于多样化的多模态任务。

Nov, 2023

孤立扩散：多概念文本到图像生成的优化 —— 在自由训练中使用孤立扩散引导

通过单独的扩散过程和修订方法，本研究提出了一种针对大规模文本到图像扩散模型的通用方法，以解决复杂场景中不同主题及其附件之间的相互干扰，追求更好的文本图像一致性。

Mar, 2024

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022