DiTFastAttn：扩散变压器模型的注意力压缩

Jun, 2024

DiTFastAttn：扩散变压器模型的注意力压缩

DiTFastAttn: Attention Compression for Diffusion Transformer Models

Zhihang Yuan, Pu Lu, Hanling Zhang, Xuefei Ning, Linfeng Zhang...

TL;DRDiffusion Transformers（DiT）在图像和视频生成方面表现出色，但由于自注意力的二次复杂度而面临计算挑战。我们提出 DiTFastAttn，这是一种新颖的后训练压缩方法，用于减轻 DiT 的计算瓶颈。我们确定了 DiT 推理过程中注意力计算中的三个关键冗余：1. 空间冗余，即许多注意力头部关注局部信息；2. 时间冗余，即相邻步骤的注意力输出之间存在高相似性；3. 条件冗余，即条件和无条件推理之间存在显著相似性。为了解决这些冗余，我们提出了三种技术：1. 带残留缓存的窗口注意力，以减少空间冗余；2. 时间相似性减少，以利用步骤之间的相似性；3. 条件冗余消除，以在条件生成过程中跳过冗余计算。为了证明 DiTFastAttn 的有效性，我们将其应用于 DiT、PixArt-Sigma 进行图像生成任务，以及 OpenSora 进行视频生成任务。评估结果显示，对于图像生成，我们的方法减少了高分辨率生成中高达 88％的 FLOPs，实现了高达 1.6 倍的加速。

Abstract

diffusion transformers (DiT) excel at image and video generation but face computational challenges due to self-attention's quadratic complexity. We propose →

diffusion transformers ditfastattn post-training compression method redundancies in attention computation image and video generation

发现论文，激发创造

$Δ$-DiT：一种为扩散变换器量身定制的无需训练的加速方法

通过调查 DiT 块与图像生成之间的相关性，发现 DiT 的前述块与生成图像的轮廓有关，而后述块与细节有关。基于此，我们提出了一个全面的无需训练的推断加速框架 Delta-DiT，采用设计的缓存机制来加速早期采样阶段的后述 DiT 块和后期阶段的前述 DiT 块。在 PIXART-alpha 和 DiT-XL 上的大量实验证明，Delta-DiT 在 20 步生成时可以实现 1.6 倍加速，并在大多数情况下性能提高。在 4 步一致模型生成和更具挑战性的 1.12 倍加速的情况下，我们的方法显著优于现有方法。我们的代码将公开提供。

Jun, 2024

DiG: 基于门控线性注意力的可扩展高效扩散模型

本文基于 Gated Linear Attention Transformers 构建一个可用于扩展预训练扩散模型的简单、易于采用的解决方案，其在效率和效果上优于 Diffusion Transformers 模型。

May, 2024

Inf-DiT: 用内存高效的扩散变换方法上采样任意分辨率图像

通过引入单向注意力机制和 DiT 结构，我们提出了一种自适应调整推理过程中的内存负荷和处理全局依赖性的无限超分模型，实验结果表明，在生成超高分辨率图像方面，我们的模型在机器和人类评估方面都达到了最先进的性能。与常用的 UNet 结构相比，在生成 4096*4096 图像时，我们的模型可以节省超过 5 倍的内存。

May, 2024

窗口化注意力在图像压缩中的应用

本文提出了一种基于 Transformer 和注意力机制的对称变压器框架，其中融合了局部感知机制和全局相关特征学习，在图像压缩方面表现出更好的效果。

Mar, 2022

可扩展的 Transformer 扩散模型

本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer，通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性，并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型，后者在 256x256 基准测试上实现了先进的 FID (2.27)。

Dec, 2022

快速训练极端掩码的扩散变压器用于三维点云生成

FastDiT-3D is a novel masked diffusion transformer designed for efficient generation of high-quality 3D point clouds, achieving state-of-the-art performance with reduced training costs and improving multi-category 3D generation using a Mixture-of-Expert approach.

Dec, 2023

连续变压器：用于在线推理的无冗余注意力

本文提出了基于新型 Scaled Dot-Product Attention 的连续输入流上的在线逐标记推断的 Continual Transformer Encoder，通过实验证明该算法在保持预测性能的情况下，可将每次预测的浮点运算次数降低 63 倍至 2.6 倍。

Jan, 2022

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

FORA：扩散变压器加速中的快速前向缓存

Diffusion transformers 的推广应用因其可扩展性而成为生成高质量图像和视频的首选，但模型的增大导致了推理成本的提高，我们提出 Fast-FORward CAching（FORA），一种简单而有效的方法以降低计算开销并加速推广应用在实时应用中。

Jul, 2024

Q-DiT：扩散变压器的准确后训练量化

Q-DiT 是一种结合了精细化量化、自动搜索策略和动态激活量化的方法，用于处理 Diffusion Transformer（DiT）模型中的权重和激活的巨大变化，以实现高效、高质量的量化和图像生成。

Jun, 2024