T2I-Adapter: 学习适配器以挖掘更多可控能力的文本到图像扩散模型

Feb, 2023

T2I-Adapter: 学习适配器以挖掘更多可控能力的文本到图像扩散模型

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang...

TL;DR该论文提出了使用轻量级的 T2I 适配器来对图像生成过程进行更加精准的控制，实现在不同条件下的色彩和结构控制，并具有可组合性和广泛的应用前景。

Abstract

The incredible generative ability of large-scale text-to-image (T2I) models has demonstrated strong power of learning complex structures and meaningful semantics. However, relying solely on text prompts cannot fully take advantage of the knowledge learned by the model, especially when flexible and accurate controlling (e.g., →

text-to-image models generation control t2i-adapters color and structure composability

发现论文，激发创造

多模态引导下的图像编辑与文本到图像扩散模型调查

图像编辑以满足用户特定需求为目标，近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾，介绍了综合的图像编辑范畴、各种控制信号和编辑场景，提出了一个统一的框架来规范编辑过程，并分成两个主要算法体系，为用户实现特定目标提供了一个设计空间。另外，对于基于训练的方法，我们讨论了它们的特点和适用场景，并介绍了在不同场景下源图像注入的方案。此外，我们还回顾了将二维技术应用于视频编辑，并突出了解决帧间不一致问题的解决方案。最后，我们讨论了该领域面临的开放性挑战，并提出了潜在的未来研究方向。

Jun, 2024

面向文本到图像生成的判别性探测和调整

通过增强 T2I 模型的判别能力来实现更精确的文本与图像对齐，我们提出了一种基于 T2I 模型构建的判别适配器，并利用判别微调来改善文本和图像之间的对齐。综合评估结果表明，我们的方法在生成性能上优于其他模型，并在两个判别性任务方面达到了最先进的性能。

Mar, 2024

可控生成的文本 - 图像扩散模型：一份综述

在控制生成方面与文本到图像扩散模型的研究领域，通过调查文献并总结了控制性生成，包括基本概念和实践研究。

Mar, 2024

便携式操控：文图生成中多功能文字操控艺术作品创作

我们提出了 AnyControl，这是一个支持多种不同控制信号任意组合的多控制图像合成框架，它使用了多模态的嵌入来引导生成过程，实现了对用户输入的整体理解，并通过广泛的定量和定性评估展示了高质量、忠实的生成结果。

Jun, 2024

I2V-Adapter: 视频扩散模型的通用图像到视频适配器

在 AI 驱动视频生成领域，本研究通过引入 I2V-Adapter 解决了将静态图像转化为动态视频序列的复杂挑战，保持了 T2I 模型的结构完整性和运动模块，并在保持空间细节的同时降低了可训练参数的需求，这一性能上的突破在创意应用中具备了广泛的适用性。

Dec, 2023

FlexEControl: 文本到图像生成的灵活高效多模控制

提出了一种新颖的灵活高效的可控文本到图像生成方法 FlexEControl，其核心是一种独特的权重分解策略，能够有效地整合不同类型的输入，提高了生成图像与控制之间的准确性，同时显著降低了与多模态条件相关的计算开销。相比 Uni-ControlNet，该方法在可训练参数和内存使用方面分别减少了 41% 和 30%，且能够灵活生成在多种输入条件下引导的图像。

May, 2024

ArtAdapter: 使用多级样式编码器和明确适应的文本到图像风格转换

ArtAdapter 是一种转换性的文本到图像（T2I）风格转移框架，能够超越传统的颜色、画笔和物体形状的限制，捕捉高级风格元素，如构图和独特的艺术表达。通过整合多级风格编码器与我们提出的显式适应机制，ArtAdapter 在风格转移中实现了前所未有的保真度，确保与文本描述的紧密对齐。此外，辅助内容适配器（ACA）的融入有效地将内容与风格分离，减轻了从风格参考中借用内容的问题。此外，我们的新颖快速微调方法可以进一步增强零样式表示，同时减轻过拟合的风险。全面的评估证实了 ArtAdapter 超越了当前最先进的方法。

Dec, 2023

严重程度可控的文本到图像生成模型的偏倚操纵

通过利用嵌入的语言模型的数学基础，我们的技术使得在模型偏见的作用下对输出的严重程度进行可扩展和便捷的控制，同时也允许通过精确的提示工程生成通常不真实的图像，我们还演示了将此操纵用于平衡生成类别频率的构造性应用。

Apr, 2024

TTIDA: 通过文本转文本和文本转图像模型进行可控生成数据增强

本文提出了 TTIDA（Text-to-Text-to-Image 数据增强）方法，利用大型预训练的 T2T 和 T2I 生成模型来进行数据增强。通过在 T2T 模型的细节描述下对 T2I 模型进行条件控制，我们能够以灵活和可控的方式生成逼真的标记图像。对于领域内分类、跨领域分类和图像字幕任务的实验表明，与其他数据增强基线相比，TTIDA 表现一致地表现出了优越的性能和增强韧性。分析研究进一步证明了 TTIDA 增强性能和提高鲁棒性的有效性。

Apr, 2023

基于图像信息去除的图像转换

本文提出了一种利用 Image Information Removal 模块来精准地去除原始图像中与颜色和纹理相关的信息，以更好地保存文本不相关内容并避免相同映射问题，从而实现文本到图像编辑的方法。我们的方法在三个基准数据集上达到了最佳的可编辑性 - 保真度的平衡，并且我们的编辑图像比 COCO 上的之前的艺术作品更受注释者的欢迎。

May, 2023