ECNet: 有效可控的文本到图像扩散模型

Mar, 2024

ECNet: 有效可控的文本到图像扩散模型

ECNet: Effective Controllable Text-to-Image Diffusion Models

Sicheng Li, Keqiang Sun, Zhixin Lai, Xiaoshi Wu, Feng Qiu...

TL;DR通过引入 Spatial Guidance Injector（SGI）和 Diffusion Consistency Loss（DCL）方法，我们提出了一种更准确的可控端到端文本到图像生成框架，其中 SGI 提供了更准确的条件输入，DCL 加强了对生成输出的控制，实验证明了我们方法在各种条件下显著提升了生成图像的可控性和稳健性，优于现有最先进的可控文本到图像模型。

Abstract

The conditional text-to-image diffusion models have garnered significant attention in recent years. However, the precision of these models is often compromised mainly for two reasons, ambiguous condition input and inadequate condition guidance over single denoising loss. To address the

conditional text-to-image diffusion models spatial guidance injector diffusion consistency loss effective controllable network controllable text-to-image models

发现论文，激发创造

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

为文本 - 图像扩散模型添加条件控制

提出一种神经网络框架 ControlNet 来控制大型预训练扩散模型以支持额外的输入条件，该模型能够以端到端的方式学习任务特定条件，并且学习具有鲁棒性，即使训练数据集很小（<50k）；此外，训练 ControlNet 的速度与调整扩散模型的速度相同，模型可以在个人设备上训练。也可以在强大的计算集群上进行训练，适用于大量（数百万至数十亿）的数据；控制网络可以与大型扩散模型一起使用，以启用诸如边缘地图、分割地图、关键点等条件输入，进一步丰富了控制大型扩散模型的方法，促进了相关应用的发展。

Feb, 2023

Uni-ControlNet: 文本到图像扩散模型全控制

本文介绍了 Uni-ControlNet 的新方法，该方法利用不同的局部和全局控制并通过预训练的文本到图像扩散模型进行微调，使图像生成更具控制性和复合性。

May, 2023

ControlNet++：通过高效一致性反馈改进条件控制

通过像素级别的循环一致性优化生成的图像与条件控制之间的一致性来提高图像的可控性。

Apr, 2024

潜在扩散中的场景图条件

利用 ControlNet 和 Gated Self-Attention，我们提出了多种方法来解决稀缺的图像和场景图数据，通过场景图生成高质量图像，超越了之前的方法。

Oct, 2023

可控的文本到三维生成：面对齐的高斯扩散

本研究主要关注在控制性文本生成 3D 场景方面的多视图控制网络架构，该网络结合额外的输入条件，如边缘、深度、法线和素描图，使用局部和全局嵌入来控制基础扩散模型，并通过优化实现 3D 生成，最终实现了高质量、可控的 3D 内容的生成。

Mar, 2024

基于语义条件扩散网络的图像字幕生成

本文提出了一种基于 Semantic-Conditional Diffusion Networks（SCD-Net）的图像字幕生成模型，用于有效捕捉离散单词间的依赖性并实现复杂的视觉语言对齐，并采用自举序列训练策略稳定扩散过程，实验证明其在 COCO 数据集上取得了很好的表现。

Dec, 2022

ControlNet-XS：为控制文本到图像扩散模型设计高效和有效的架构

图像合成领域取得了巨大的进展，在本文中，我们提出了一种新的控制架构 ControlNet-XS，它不受信息流动延迟的问题困扰，因此可以专注于学习控制任务。与现有的控制网络相比，我们的模型参数量少，推理和训练时间大约快两倍，生成的图像质量更高，控制精度更高。

Dec, 2023

Control3D：面向可控的文本到 3D 生成

大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破，仅通过给定的文本提示从零开始创作三维内容。然而，现有的文本到三维技术在创作过程中缺乏一项关键能力：根据用户的需求规范（如草图）对合成的三维内容进行交互式控制和塑造。为了解决这个问题，我们首次尝试在条件上添加手绘草图的文本到三维生成，即 Control3D，以增强用户的可控性。具体而言，我们通过改进的 2D 条件扩散模型（ControlNet）来引导作为 NeRF 参数化的三维场景的学习，以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外，我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致，从而实现了更好的可控文本到三维生成。通过广泛的实验证明，我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。

Nov, 2023

GLIDE: 基于文本引导扩散模型的逼真图像生成和编辑

本研究探讨了扩散模型在文本条件下生成图像的问题，并比较了不同的指导策略：CLIP 指导和无分类器指导。结果发现对于照片逼真度和字幕相似性，后者更受人类评估人员的青睐，还可以进行图像修复。

Dec, 2021