Jun, 2024

DiTFastAttn:扩散变压器模型的注意力压缩

TL;DRDiffusion Transformers(DiT)在图像和视频生成方面表现出色,但由于自注意力的二次复杂度而面临计算挑战。我们提出 DiTFastAttn,这是一种新颖的后训练压缩方法,用于减轻 DiT 的计算瓶颈。我们确定了 DiT 推理过程中注意力计算中的三个关键冗余:1. 空间冗余,即许多注意力头部关注局部信息;2. 时间冗余,即相邻步骤的注意力输出之间存在高相似性;3. 条件冗余,即条件和无条件推理之间存在显著相似性。为了解决这些冗余,我们提出了三种技术:1. 带残留缓存的窗口注意力,以减少空间冗余;2. 时间相似性减少,以利用步骤之间的相似性;3. 条件冗余消除,以在条件生成过程中跳过冗余计算。为了证明 DiTFastAttn 的有效性,我们将其应用于 DiT、PixArt-Sigma 进行图像生成任务,以及 OpenSora 进行视频生成任务。评估结果显示,对于图像生成,我们的方法减少了高分辨率生成中高达 88%的 FLOPs,实现了高达 1.6 倍的加速。