FlexEControl: 文本到图像生成的灵活高效多模控制

May, 2024

FlexEControl: 文本到图像生成的灵活高效多模控制

FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation

Xuehai He, Jian Zheng, Jacob Zhiyuan Fang, Robinson Piramuthu, Mohit Bansal...

TL;DR提出了一种新颖的灵活高效的可控文本到图像生成方法 FlexEControl，其核心是一种独特的权重分解策略，能够有效地整合不同类型的输入，提高了生成图像与控制之间的准确性，同时显著降低了与多模态条件相关的计算开销。相比 Uni-ControlNet，该方法在可训练参数和内存使用方面分别减少了 41% 和 30%，且能够灵活生成在多种输入条件下引导的图像。

Abstract

controllable text-to-image (T2I) diffusion models generate images conditioned on both text prompts and semantic inputs of other modalities

controllable text-to-image diffusion models semantic inputs flexecontrol weight decomposition strategy

发现论文，激发创造

便携式操控：文图生成中多功能文字操控艺术作品创作

我们提出了 AnyControl，这是一个支持多种不同控制信号任意组合的多控制图像合成框架，它使用了多模态的嵌入来引导生成过程，实现了对用户输入的整体理解，并通过广泛的定量和定性评估展示了高质量、忠实的生成结果。

Jun, 2024

FreeControl：无需训练的任意文本到图像扩散模型的空间控制与任意条件

FreeControl 是一种无需训练的可控文本生成方法，支持多种条件、架构和检查点，并在定性和定量实验中展现了卓越性能。

Dec, 2023

可控生成的文本 - 图像扩散模型：一份综述

在控制生成方面与文本到图像扩散模型的研究领域，通过调查文献并总结了控制性生成，包括基本概念和实践研究。

Mar, 2024

Ctrl-X: 无需指导的文本到图像生成中的结构和外观控制

Ctrl-X 是一个简单的 T2I 扩散（diffusion）控制结构和外观的框架，通过设计前馈结构控制以实现结构与结构图像的对齐以及语义感知外观转换，从而实现了对任意条件图像的全新结构和外观控制，展现了超过现有作品的图像质量和外观转换，并为任何 T2I 和 T2V 扩散模型提供即插即用的功能。

Jun, 2024

T2I-Adapter: 学习适配器以挖掘更多可控能力的文本到图像扩散模型

该论文提出了使用轻量级的 T2I 适配器来对图像生成过程进行更加精准的控制，实现在不同条件下的色彩和结构控制，并具有可组合性和广泛的应用前景。

Feb, 2023

TCIG：两阶段受控图像生成与质量增强

最近几年，在文本到图像生成模型的发展方面取得了显著进展。然而，这些模型在生成过程中仍然面临着实现完全可控性的局限性。为了解决这些挑战，提出了一种有效结合可控性和高质量的图像生成的两阶段方法。该方法通过利用预训练模型的专业知识实现对生成图像的精确控制，并利用扩散模型的强大功能实现卓越的质量。通过将可控性与高质量分开，该方法取得了出色的结果，并且与当前领域的最新方法产生了可比较的结果。总体而言，该方法在文本到图像生成方面代表了一项重大进展，实现了在生成图像质量上不妥协的同时提升了可控性。

Mar, 2024

SmartControl：增强控制网络以处理复杂视觉环境

通过设计一种名为 SmartControl 的新型 T2I 生成方法，我们解决了现有 T2I 生成模型中存在的问题，该方法通过放松与文本提示冲突的区域的视觉条件，从而调整图像的粗略视觉条件，使之与文本提示相适应，并在四种典型的视觉条件类型上充分验证了我们的 SmartControl 的有效性。

Apr, 2024

基于扩散模型的可控文本到视频生成

本文提出了一种可控的文本到视频模型，名为 Video-ControlNet，它可以生成由控制信号（如边缘或深度图）条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验，并生成具有细粒度控制的高质量和连贯视频。

May, 2023

MaxFusion: 文本 - 图像扩散模型中的即插即用多模态生成

本研究提出了一种名为 MaxFusion 的新策略，通过合并多个模型的对齐特征，为扩展到新模态条件的基于文本到图像生成模型提供了一个高效的伸缩方法。

Apr, 2024

控制样式：使用扩散先验生成基于文本的风格化图像

提出了一种新的任务，文本驱动的风格化图像生成，以进一步增强内容创造中的可编辑性，通过升级经过训练的文本到图像模型与可训练的调制网络，同时引入扩散样式和内容正则化，实现了高质量的风格化文本到图像生成。

Nov, 2023