通过无需训练的掩码引导扩散增强提示跟随的视觉控制

Apr, 2024

通过无需训练的掩码引导扩散增强提示跟随的视觉控制

Enhancing Prompt Following with Visual Control Through Training-Free Mask-Guided Diffusion

Hongyu Chen, Yiqi Gao, Min Zhou, Peng Wang, Xubin Li...

TL;DR本文提出了一种名为 Mask-guided Prompt Following (MGPF) 的无需训练的方法，通过引入物体掩码来区分对齐和未对齐的视觉控制和提示的部分，并设计了一个名为 Masked ControlNet 的网络，用于在未对齐的视觉控制区域生成对象。通过全面的定量和定性实验证明了 MGPF 的有效性和优越性。

Abstract

Recently, integrating visual controls into text-to-image~(T2I) models, such as ControlNet method, has received significant attention for finer control capabilities. While various training-free methods make efforts to enhance →

visual controls text-to-image models prompt following misaligned visual controls mask-guided prompt following (mgpf)

发现论文，激发创造

Mask-ControlNet：使用额外掩码提示的高品质图像生成

通过引入额外的掩码提示 Mask-ControlNet，本研究在文本到图像生成方面取得了较好的性能，改善了前景与背景之间复杂关系的准确性，提升了生成图像的质量。

Apr, 2024

针对空间控制文本到图像生成的遮蔽注意力扩散引导

用不需要额外的训练的方法，通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明，所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。

Aug, 2023

扩散模型的注意力映射控制组合式文本到图像合成

本文提出了一种基于预测的物体框的注意力掩码控制策略，以解决文本到图像合成模型在语义上的局限性，尤其是属性泄漏、实体泄漏和缺失实体，该方法通过约束查询语句中每个标记的注意区域来实现更准确的语义综合，此外，该方法简单而有效，可以轻松集成到现有的跨注意力扩散 T2I 生成器中，并成功地在生成内容中传达了原始文本的语义，并作为可用的插件得到了高可用性的证明。

May, 2023

FreeControl：无需训练的任意文本到图像扩散模型的空间控制与任意条件

FreeControl 是一种无需训练的可控文本生成方法，支持多种条件、架构和检查点，并在定性和定量实验中展现了卓越性能。

Dec, 2023

SmartControl：增强控制网络以处理复杂视觉环境

通过设计一种名为 SmartControl 的新型 T2I 生成方法，我们解决了现有 T2I 生成模型中存在的问题，该方法通过放松与文本提示冲突的区域的视觉条件，从而调整图像的粗略视觉条件，使之与文本提示相适应，并在四种典型的视觉条件类型上充分验证了我们的 SmartControl 的有效性。

Apr, 2024

细粒度视觉提示

本文介绍了一种新的零样本学习框架，Fine-Grained Visual Prompting（FGVP），通过使用精确的掩码注释来改进视觉提示设计，并展示了在不同的基准测试上均优于传统方法的性能表现。

Jun, 2023

使用扩散模型进行受控训练数据生成

这项研究提出了一种利用反馈机制来控制文本到图像生成模型，以生成对监督学习特别有用的训练数据的方法，并且通过引入指导目标分布的反馈机制，演示了该方法在不同任务、数据集和架构上相对于开环方法的有效性。

Mar, 2024

基于统一提示引导的上下文修复框架用于基于参考图像的图像操作

本文提出了一种基于大规模 T2I 模型的 Prompt-Guided In-Context inpainting (PGIC) 框架，利用该框架可以实现参考引导的图像修复、局部超分辨率和新视角合成等任务，而且不需要对模型进行精细调整。同时，该框架利用了自注意力模块建立空间相关性来有效地解决参考引导的操作。实验表明，该框架相较于其他基于精细调整的方法，具有更好的性能表现和更少的计算成本。

May, 2023

跨注意控制的提示到提示图像编辑

该文提出了一种基于文本的图像编辑框架，利用交叉注意力层控制图像布局和文本之间的关系，实现了在不改变原始内容情况下的全局和局部编辑，从而达到高质量的图像合成。

Aug, 2022

本地条件控制文本到图像扩散模型

本文介绍了一种新的简单而实用的任务设置：局部控制，它通过用户定义的图像条件在特定的局部区域进行控制，其余区域仅通过原始文本提示进行调节。我们提出了一种无需训练的方法，利用去噪过程中噪声潜变量和参数的更新，在交互注意力图中促进非控制区域的概念生成。此外，我们使用特征屏蔽约束解决局部控制区域内外信息差异导致的合成图像质量下降问题。广泛的实验表明，我们的方法可以在局部控制条件下合成出高质量的图像。

Dec, 2023