高效生成高分辨率图像的 Token 下采样策略

Feb, 2024

高效生成高分辨率图像的 Token 下采样策略

ToDo: Token Downsampling for Efficient Generation of High-Resolution Images

Ethan Smith, Nayan Saxena, Aninda Saha

TL;DR提出了一种密集注意力的训练无关方法以加速稳定扩散推理的进行，通过关键和值令牌的降采样，在常见尺寸和高分辨率下可以将推理速度提高 2 倍或更多，证明了该方法在平衡高效吞吐量和保真度方面优于之前的方法。

Abstract

attention mechanism has been crucial for image diffusion models, however, their quadratic computational complexity limits the sizes of images we can process within reasonable time and memory constraints. This pap

attention mechanism image diffusion models generative image models sparse attention mechanisms stable diffusion inference

发现论文，激发创造

视觉 Transformer 中的 Token 池化

该研究提出了一种称作 Token Pooling 的新型令牌下采样方法，旨在提高对视觉变换的计算速度，并通过对 softmax 注意力机制的研究，实现了更好的计算速度与精度之间的平衡。

Oct, 2021

提升文本到图像合成中的语义保真度：扩散模型中的注意力调节

我们提出了一种注意力调节方法，通过实时优化来对齐注意力图与输入文本提示，从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较，结果表明我们的方法在减少计算开销的同时，始终优于其他基准方法，生成的图像更加忠实地反映了所需的概念。

Mar, 2024

扩散模型中通过重用注意力图实现快速推理

通过结构化地重用注意力映射，我们的训练无关方法在保持样本质量的同时，显著降低了文本到图像扩散模型的迭代过程中的延迟。

Dec, 2023

KOALA：自注意力在潜在扩散模型知识蒸馏中的重要性 —— 用于高效内存和快速图像合成

通过蒸馏 SDXL 模型的知识，我们提出了一种高效的文本到图像综合的潜在扩散模型，其核心是通过设计有效的 U-Net 和自注意力的知识蒸馏策略，使 KOALA 模型在减小模型尺寸的同时，仍保持良好的生成质量，相较于 SDXL 模型有两倍以上的速度，可以在资源有限的环境中成为一种具有成本效益的替代选择。

Dec, 2023

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

一幅图像对于重建与生成而言价值 32 个令牌

这篇研究论文介绍了一种基于 Transformer 的一维令牌化方法（TiTok），其将图像令牌化为一维潜在序列，通过提供更紧凑的潜在表示形式，实现了比传统技术更高效和更有效的图像合成。

Jun, 2024

利用扩散模型的时空关注力实现高保真度文本到图像合成

本文提出了一种新的文本到图像算法，通过在扩散模型中加入显式的空间 - 时间交叉注意力控制，利用布局预测器和空间注意力控制相结合，实现优化组合权重的方式，从而生成与文本更高保真的图像。

Apr, 2023

Inf-DiT: 用内存高效的扩散变换方法上采样任意分辨率图像

通过引入单向注意力机制和 DiT 结构，我们提出了一种自适应调整推理过程中的内存负荷和处理全局依赖性的无限超分模型，实验结果表明，在生成超高分辨率图像方面，我们的模型在机器和人类评估方面都达到了最先进的性能。与常用的 UNet 结构相比，在生成 4096*4096 图像时，我们的模型可以节省超过 5 倍的内存。

May, 2024

透过交叉注意力揭示和减轻文本到图像扩散模型中的记忆化

研究论文概述：最近的文本到图像扩散模型在生成高质量图像方面展示了显著的能力，但是越来越多的研究表明这些模型从训练数据中记忆并复制图像，引发了对潜在版权侵权和隐私风险的巨大担忧。在这项研究中，我们通过检查交叉注意力机制与记忆现象的关系，提供了一种新的视角来理解这一现象。我们揭示了在记忆过程中，交叉注意力倾向于不成比例地关注特定标记的嵌入。扩散模型对这些标记嵌入进行了过度拟合，记住了相应的训练图像。为了阐明这一现象，我们进一步确定并讨论了与记忆相关的十分内在发现的交叉注意力。基于这些见解，我们提出了一种创新方法来检测和减轻扩散模型中的记忆现象。我们提出的方法的优势是在保留生成图像质量的同时不会影响这些模型的训练或推理过程的速度。

Mar, 2024

基于注意力机制的训练无关扩散模型效率增强

Attention-driven Training-free Efficient Diffusion Model (AT-EDM) framework leverages attention maps for runtime pruning of redundant tokens in Diffusion Models, introducing a novel ranking algorithm (Generalized Weighted Page Rank) and a Denoising-Steps-Aware Pruning approach to enhance efficiency while maintaining similar performance.

May, 2024