跨注意力控制实现免费本地化文本图像生成

Jun, 2023

跨注意力控制实现免费本地化文本图像生成

Localized Text-to-Image Generation for Free via Cross Attention Control

Yutong He, Ruslan Salakhutdinov, J. Zico Kolter

TL;DR本研究发现，在推论期间通过简单控制交叉注意力图就可以实现本地化生成，同时提高了文本到图像生成模型的组成能力。

Abstract

Despite the tremendous success in text-to-image generative models, localized text-to-image generation (that is, generating objects or features at specific locations in an image while maintaining a consistent overall generation) still requires either explicit training or substantial add

text-to-image generation localized generation cross attention maps open-vocabulary localization compositional capability

发现论文，激发创造

使用 ControlNet 和交叉注意控制实现基于局部描述的布局到图像生成

通过修改跨注意力矩阵，在保持图像质量的同时改进控制能力，本研究以 ControlNet 为例，研究了几种现有的跨注意力控制方法的局限性，并提出了一种新的跨注意力操纵方法，通过定位描述来实现对生成图像的精细控制。

Feb, 2024

本地条件控制文本到图像扩散模型

本文介绍了一种新的简单而实用的任务设置：局部控制，它通过用户定义的图像条件在特定的局部区域进行控制，其余区域仅通过原始文本提示进行调节。我们提出了一种无需训练的方法，利用去噪过程中噪声潜变量和参数的更新，在交互注意力图中促进非控制区域的概念生成。此外，我们使用特征屏蔽约束解决局部控制区域内外信息差异导致的合成图像质量下降问题。广泛的实验表明，我们的方法可以在局部控制条件下合成出高质量的图像。

Dec, 2023

针对空间控制文本到图像生成的遮蔽注意力扩散引导

用不需要额外的训练的方法，通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明，所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。

Aug, 2023

基于交叉注意力引导的无需训练的布局控制

通过提示文本控制生成的图像在空间布局方面存在问题，因此我们提出了一种名为布局引导技术的新方法，该方法可以改进模型的交叉注意层，以实现所需的重建方向，并成功进行了定量和定性的实验验证与扩展。

Apr, 2023

无需训练的位置感知文本到图像合成

本文提出了一种新的交互式图像生成方案，以定位细粒度为目标，评价了生成模型控制位置的能力，并在图像质量和控制能力方面均表现出超过最先进方法的效果。

Apr, 2023

文本到图像扩散模型中的交叉注意力使推理繁琐

该研究探讨了文本条件扩散模型在推理过程中的跨注意力的作用。研究发现，跨注意力输出在几个推理步骤后趋于一个固定点。因此，收敛的时间点自然地将整个推理过程分为两个阶段：初始的语义规划阶段，此阶段模型依赖于跨注意力来规划与文本相关的视觉语义；以及接下来的提高保真度阶段，在此阶段模型试图根据之前规划的语义生成图像。令人惊讶的是，在提高保真度阶段忽略文本条件不仅降低计算复杂度，而且保持了模型的性能。这产生了一种简单且无需训练的有效生成方法，称为 TGATE，它在收敛后缓存跨注意力输出，并在剩余推理步骤中保持固定。我们在 MS-COCO 验证集上的实证研究证实了其有效性。TGATE 的源代码可在此 https URL 中获取。

Apr, 2024

TextCenGen：面向文本到图像生成的注意力导向的文本中心背景适应

TextCenGen 是一种新的文本图像生成方法，采用了力导向注意力引导模型，以生成更具和谐感的文字图像布局。在图形设计方面的实验结果显示，TextCenGen 相较于传统方法在布局上更出色，同时在特定文本位置的数据集上也显著提高了 Text-to-image 模型的结果。

Apr, 2024

基于问题控制的文本感知图像描述

本研究提出了一种新的受控图像文本生成任务 Qc-TextCap，并通过设计问题控制模型（GQAM）达到比现有模型更好的文本生成性能和问题答案能力，同时构建了两个数据集（ControlTextCaps 和 ControlVizWiz），提高了多样化和信息性。

Aug, 2021

通过类自适应交叉注意力实现语义图像合成

我们设计了一种使用交叉注意力层代替反归一化层进行图像生成条件的新型架构，旨在实现全局和局部风格转换，并保留先进的重建质量。

Aug, 2023

可控的文本到图像生成

该论文提出了一种新颖的可控文本到图像生成对抗网络 (ControlGAN)，它能够有效地合成高质量图像并根据自然语言描述控制图像的生成。该方法采用词级空间和通道注意力机制对不同的视觉属性进行分离，并通过词级鉴别器提供细粒度的监督反馈，使生成器能够对特定的视觉属性进行操作。通过大量的实验证明，我们的方法优于现有的最先进技术，并能够通过自然语言描述有效地操作合成图像。

Sep, 2019