DiG: 基于门控线性注意力的可扩展高效扩散模型
在计算机视觉任务中,线性复杂度序列建模网络达到了与 Vision Transformers 相似的建模能力,同时使用更少的 FLOPs 和内存。然而,它们在实际运行时速度方面的优势并不显著。为了解决这个问题,我们引入了适用于视觉的门控线性注意力(GLA),利用它的硬件感知和高效性。我们提出了方向性门控,通过双向建模来捕捉一维全局上下文,并通过二维门控局部注入来自适应地将二维局部细节注入一维全局上下文。我们的硬件感知实现将正向扫描和反向扫描合并为单个核心,增强了并行性,减少了内存成本和延迟。所提出的模型 ViG 在 ImageNet 和下游任务中在准确性、参数和 FLOPs 上取得了有利的权衡,优于流行的 Transformer 和基于 CNN 的模型。值得注意的是,ViG-S 仅使用参数的 27% 和 FLOPs 的 20%,在 224x224 大小的图像上运行速度比 DeiT-B 快 2 倍。在 1024x1024 分辨率下,ViG-T 使用的 FLOPs 比 DeiT-T 少了 5.2 倍,节省了 90% 的 GPU 内存,运行速度快了 4.8 倍,并且相比 DeiT-T 的 top-1 准确率高出 20.7%。这些结果使 ViG 成为一种高效且可扩展的视觉表示学习解决方案。代码可在 https://github.com/hustvl/ViG 找到。
May, 2024
本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer,通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性,并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型,后者在 256x256 基准测试上实现了先进的 FID (2.27)。
Dec, 2022
通过引入数据依赖的门控机制,我们开发了一种硬件高效的并行形式,使得门控线性注意力(GLA)Transformers 在适度规模的语言建模中表现竞争力,并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。
Dec, 2023
Diffusion Transformers(DiT)在图像和视频生成方面表现出色,但由于自注意力的二次复杂度而面临计算挑战。我们提出 DiTFastAttn,这是一种新颖的后训练压缩方法,用于减轻 DiT 的计算瓶颈。我们确定了 DiT 推理过程中注意力计算中的三个关键冗余:1. 空间冗余,即许多注意力头部关注局部信息;2. 时间冗余,即相邻步骤的注意力输出之间存在高相似性;3. 条件冗余,即条件和无条件推理之间存在显著相似性。为了解决这些冗余,我们提出了三种技术:1. 带残留缓存的窗口注意力,以减少空间冗余;2. 时间相似性减少,以利用步骤之间的相似性;3. 条件冗余消除,以在条件生成过程中跳过冗余计算。为了证明 DiTFastAttn 的有效性,我们将其应用于 DiT、PixArt-Sigma 进行图像生成任务,以及 OpenSora 进行视频生成任务。评估结果显示,对于图像生成,我们的方法减少了高分辨率生成中高达 88%的 FLOPs,实现了高达 1.6 倍的加速。
Jun, 2024
我们提出了 TerDiT,一种针对具有 transformer 的三态扩散模型的量化感知训练(QAT)和有效部署方案,致力于探索大规模 DiT 模型的高效部署策略,展示了从头开始训练极低比特扩散变压器模型的可行性,同时保持与全精度模型相比有竞争力的图像生成能力。
May, 2024
通过调查 DiT 块与图像生成之间的相关性,发现 DiT 的前述块与生成图像的轮廓有关,而后述块与细节有关。基于此,我们提出了一个全面的无需训练的推断加速框架 Delta-DiT,采用设计的缓存机制来加速早期采样阶段的后述 DiT 块和后期阶段的前述 DiT 块。在 PIXART-alpha 和 DiT-XL 上的大量实验证明,Delta-DiT 在 20 步生成时可以实现 1.6 倍加速,并在大多数情况下性能提高。在 4 步一致模型生成和更具挑战性的 1.12 倍加速的情况下,我们的方法显著优于现有方法。我们的代码将公开提供。
Jun, 2024
通过沙漏扩散变压器(HDiT),我们提出了一种图像生成模型,在像素空间中支持直接高分辨率(例如 $1024 imes 1024$)训练,具有与像素数量线性扩展的特点。利用已能够扩展到数十亿参数的 Transformer 架构,它在卷积 U-Net 的效率和 Transformer 的可扩展性之间建立了桥梁。HDiT 成功进行训练,无需典型的高分辨率训练技术,如多尺度架构、潜变量自编码器或自条件方法。我们证明 HDiT 在 ImageNet $256^2$ 上与现有模型竞争力相当,并在 FFHQ-$1024^2$ 上创造了扩散模型的最新技术水平。
Jan, 2024
本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
Dec, 2023
Q-DiT 是一种结合了精细化量化、自动搜索策略和动态激活量化的方法,用于处理 Diffusion Transformer(DiT)模型中的权重和激活的巨大变化,以实现高效、高质量的量化和图像生成。
Jun, 2024