ViscoNet：将视觉和文本条件合并与协调，用于 ControlNet

Dec, 2023

ViscoNet：将视觉和文本条件合并与协调，用于 ControlNet

ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet

Soon Yau Cheong, Armin Mustafa, Andrew Gilbert

TL;DRViscoNet 是一种新颖的方法，通过视觉提示来增强文本到图像人物生成模型，使用户可以通过参考图像指定目标对象的视觉外观，从而从图像背景中分离出对象的外观，并通过 ControlNet 分支将其注入预训练的潜在扩散模型 (LDM) 模型中，从而缓解了样式模式崩溃问题并实现了精确和灵活的视觉控制。我们在人物图像生成上展示了 ViscoNet 的有效性，它能够通过文本和图像提示操控视觉属性和艺术风格，并保留了 LDM 主干的生成能力。

Abstract

This paper introduces visconet, a novel method that enhances text-to-image human generation models with visual prompting. Unlike existing methods that rely on lengthy text descriptions to control the image struct

visconet text-to-image human generation models visual prompting latent diffusion model visual control

发现论文，激发创造

ControlDreamer: 多视角控制网络的风格化三维生成

通过引入多视角 ControlNet 和强化学习模型 ControlDreamer，本研究在文本指导下实现了创意几何和风格的 3D 建模，同时提出了一个全面的 3D 风格编辑基准，证明该方法在质量和度量上优于现有的文本生成 3D 方法。

Dec, 2023

SmartControl：增强控制网络以处理复杂视觉环境

通过设计一种名为 SmartControl 的新型 T2I 生成方法，我们解决了现有 T2I 生成模型中存在的问题，该方法通过放松与文本提示冲突的区域的视觉条件，从而调整图像的粗略视觉条件，使之与文本提示相适应，并在四种典型的视觉条件类型上充分验证了我们的 SmartControl 的有效性。

Apr, 2024

ControlNet-XS：为控制文本到图像扩散模型设计高效和有效的架构

图像合成领域取得了巨大的进展，在本文中，我们提出了一种新的控制架构 ControlNet-XS，它不受信息流动延迟的问题困扰，因此可以专注于学习控制任务。与现有的控制网络相比，我们的模型参数量少，推理和训练时间大约快两倍，生成的图像质量更高，控制精度更高。

Dec, 2023

使用 ControlNet 和交叉注意控制实现基于局部描述的布局到图像生成

通过修改跨注意力矩阵，在保持图像质量的同时改进控制能力，本研究以 ControlNet 为例，研究了几种现有的跨注意力控制方法的局限性，并提出了一种新的跨注意力操纵方法，通过定位描述来实现对生成图像的精细控制。

Feb, 2024

ECNet: 有效可控的文本到图像扩散模型

通过引入 Spatial Guidance Injector（SGI）和 Diffusion Consistency Loss（DCL）方法，我们提出了一种更准确的可控端到端文本到图像生成框架，其中 SGI 提供了更准确的条件输入，DCL 加强了对生成输出的控制，实验证明了我们方法在各种条件下显著提升了生成图像的可控性和稳健性，优于现有最先进的可控文本到图像模型。

Mar, 2024

Uni-ControlNet: 文本到图像扩散模型全控制

本文介绍了 Uni-ControlNet 的新方法，该方法利用不同的局部和全局控制并通过预训练的文本到图像扩散模型进行微调，使图像生成更具控制性和复合性。

May, 2023

ViCo：细节保留的视觉条件用于个性化文本到图像生成

研究以个性化图像为导向使用扩散模型生成的技术，并提出了用于快速个性化生成的插入式模块 ViCo，包括图像注意力模块和基于文本图像注意力地图的正则化方法。其不需要微调原始扩散模型的参数，但能达到目前同类模型的最佳表现。

Jun, 2023

通过无需训练的掩码引导扩散增强提示跟随的视觉控制

本文提出了一种名为 Mask-guided Prompt Following (MGPF) 的无需训练的方法，通过引入物体掩码来区分对齐和未对齐的视觉控制和提示的部分，并设计了一个名为 Masked ControlNet 的网络，用于在未对齐的视觉控制区域生成对象。通过全面的定量和定性实验证明了 MGPF 的有效性和优越性。

Apr, 2024

潜在扩散中的场景图条件

利用 ControlNet 和 Gated Self-Attention，我们提出了多种方法来解决稀缺的图像和场景图数据，通过场景图生成高质量图像，超越了之前的方法。

Oct, 2023

Control3D：面向可控的文本到 3D 生成

大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破，仅通过给定的文本提示从零开始创作三维内容。然而，现有的文本到三维技术在创作过程中缺乏一项关键能力：根据用户的需求规范（如草图）对合成的三维内容进行交互式控制和塑造。为了解决这个问题，我们首次尝试在条件上添加手绘草图的文本到三维生成，即 Control3D，以增强用户的可控性。具体而言，我们通过改进的 2D 条件扩散模型（ControlNet）来引导作为 NeRF 参数化的三维场景的学习，以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外，我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致，从而实现了更好的可控文本到三维生成。通过广泛的实验证明，我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。

Nov, 2023