AID：文本图像扩散的注意力插值

Mar, 2024

AID: Attention Interpolation of Text-to-Image Diffusion

Qiyuan He, Jinghao Wang, Ziwei Liu, Angela Yao

TL;DR条件扩散模型通过注意力插值技术实现图像的无缝插值，可用于处理潜在空间的插值问题，同时解决了文本或姿势等特殊条件下的插值问题，并提供了更好的一致性、平滑性和效率性。

Abstract

conditional diffusion models can create unseen images in various settings, aiding image interpolation. interpolation in →

conditional diffusion models interpolation latent spaces attention interpolation prompt-guided attention interpolation

发现论文，激发创造

用扩散模型在图像之间进行插值

通过使用潜在扩散模型进行无监督插值，我们在降噪、文本嵌入和主题姿势上实现了一致而令人信服的图像插值，而传统的数量指标如 FID 则无法准确度量插值质量。

Jul, 2023

注意力调制下的密集文本到图像生成

通过 DenseDiffusion 方法，我们能够在不需额外微调或数据集的情况下，有效改善给定密集描述的图像生成性能，并且达到与专门训练有场景布局条件的模型相似的视觉效果。

Aug, 2023

MaskDiffusion：使用条件掩蔽提升文本与图像的一致性

优化了扩散模型中文本和图像的一致性，通过引入自适应掩码调整文本令牌对图像特征的贡献，提高了合成图像的质量。

Sep, 2023

AID：适应图像到视频扩散模型用于指导视频预测

基于文本和初始帧，我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构，并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型，我们的方法在四个数据集上明显优于现有技术，证明了其在不同领域的有效性。

Jun, 2024

利用扩散模型的时空关注力实现高保真度文本到图像合成

本文提出了一种新的文本到图像算法，通过在扩散模型中加入显式的空间 - 时间交叉注意力控制，利用布局预测器和空间注意力控制相结合，实现优化组合权重的方式，从而生成与文本更高保真的图像。

Apr, 2023

提升文本到图像合成中的语义保真度：扩散模型中的注意力调节

我们提出了一种注意力调节方法，通过实时优化来对齐注意力图与输入文本提示，从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较，结果表明我们的方法在减少计算开销的同时，始终优于其他基准方法，生成的图像更加忠实地反映了所需的概念。

Mar, 2024

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

针对空间控制文本到图像生成的遮蔽注意力扩散引导

用不需要额外的训练的方法，通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明，所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。

Aug, 2023

通过注意力调节改进文本到图像生成对齐

通过注意力机制的调节，我们提出了一种用于扩散模型的无需训练的逐阶段聚焦机制，旨在解决多实体和属性的文本提示处理中的注意力分布不均问题。我们的实验结果证明，我们的模型在各种情况下都能够以最小的计算成本实现更好的图像与文本的对齐。

Apr, 2024

基于关注重心的文本到图像的合成

本研究提出了两个新的损失函数，用于在采样过程中根据给定的布局重新聚焦注意力图，以解决在多个对象、属性和空间组合都涉及到的情况下现有文本到图像综合方法无法精确遵循文本提示的问题，并通过 Large Language Models 合成的布局在 DrawBench 和 HRS 基准测试中进行了全面实验，证明了我们提出的方法可以轻松有效地集成到现有的文本到图像方法中，并始终提高其生成图像与文本提示之间的对齐度。

Jun, 2023