针对空间控制文本到图像生成的遮蔽注意力扩散引导

Aug, 2023

针对空间控制文本到图像生成的遮蔽注意力扩散引导

Masked-Attention Diffusion Guidance for Spatially Controlling Text-to-Image Generation

Yuki Endo

TL;DR用不需要额外的训练的方法，通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明，所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。

Abstract

text-to-image synthesis has achieved high-quality results with recent advances in diffusion models. However, text input alone has high spatial ambiguity and limited user controllability. Most existing methods all

text-to-image synthesis diffusion models spatial control cross-attention maps masked-attention guidance

发现论文，激发创造

利用扩散模型的时空关注力实现高保真度文本到图像合成

本文提出了一种新的文本到图像算法，通过在扩散模型中加入显式的空间 - 时间交叉注意力控制，利用布局预测器和空间注意力控制相结合，实现优化组合权重的方式，从而生成与文本更高保真的图像。

Apr, 2023

扩散模型的注意力映射控制组合式文本到图像合成

本文提出了一种基于预测的物体框的注意力掩码控制策略，以解决文本到图像合成模型在语义上的局限性，尤其是属性泄漏、实体泄漏和缺失实体，该方法通过约束查询语句中每个标记的注意区域来实现更准确的语义综合，此外，该方法简单而有效，可以轻松集成到现有的跨注意力扩散 T2I 生成器中，并成功地在生成内容中传达了原始文本的语义，并作为可用的插件得到了高可用性的证明。

May, 2023

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

本地条件控制文本到图像扩散模型

本文介绍了一种新的简单而实用的任务设置：局部控制，它通过用户定义的图像条件在特定的局部区域进行控制，其余区域仅通过原始文本提示进行调节。我们提出了一种无需训练的方法，利用去噪过程中噪声潜变量和参数的更新，在交互注意力图中促进非控制区域的概念生成。此外，我们使用特征屏蔽约束解决局部控制区域内外信息差异导致的合成图像质量下降问题。广泛的实验表明，我们的方法可以在局部控制条件下合成出高质量的图像。

Dec, 2023

MaskDiffusion：使用条件掩蔽提升文本与图像的一致性

优化了扩散模型中文本和图像的一致性，通过引入自适应掩码调整文本令牌对图像特征的贡献，提高了合成图像的质量。

Sep, 2023

提升文本到图像合成中的语义保真度：扩散模型中的注意力调节

我们提出了一种注意力调节方法，通过实时优化来对齐注意力图与输入文本提示，从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较，结果表明我们的方法在减少计算开销的同时，始终优于其他基准方法，生成的图像更加忠实地反映了所需的概念。

Mar, 2024

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

SpaText: 控制型图像生成的空间文本表示

该论文提出了一种使用开放词汇场景控制的文本到图像生成方法 SpaText，基于 CLIP 的空间 - 文本表示方法，通过支持自由形式的自然语言描述的感兴趣区域的分割图来控制场景的布局和不同区域对象的形状。此外，该论文还提供了几种自动评估指标，并使用它们以及 FID 指标和用户研究来评估其方法，在具有自由形式文本场景控制的图像生成方面实现了最先进的结果。

Nov, 2022

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

使用潜在扩散模型进行高保真度的图像合成引导

本文提出了一种新的引导图像合成框架，该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时，本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系，用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。

Nov, 2022