TerDiT: 基于 Transformer 的三元扩散模型
Q-DiT 是一种结合了精细化量化、自动搜索策略和动态激活量化的方法,用于处理 Diffusion Transformer(DiT)模型中的权重和激活的巨大变化,以实现高效、高质量的量化和图像生成。
Jun, 2024
Diffusion transformers have challenges in quantization, but the proposed ViDiT-Q method achieves lossless W8A8 quantization and ViDiT-Q-MP achieves W4A8 with negligible visual quality degradation, resulting in memory optimization and latency speedup.
Jun, 2024
Diffusion Transformers (DiTs) are improved by Hybrid Floating-point Quantization (HQ-DiT), a post-training quantization method utilizing 4-bit floating-point precision on both weights and activations, resulting in low-precision quantization with minimal impact on performance.
May, 2024
本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer,通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性,并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型,后者在 256x256 基准测试上实现了先进的 FID (2.27)。
Dec, 2022
为了解决 Diffusion Transformers(DiTs)中特定的量化挑战,本文提出了一种特定的 Post-training Quantization(PTQ)方法,称为 PTQ4DiT。通过 Channel-wise Salience Balancing(CSB)和 Spearmen's ρ-guided Salience Calibration(SSC)来解决 DiTs 中存在的通道不平衡和时间变化的挑战,并通过离线重新参数化策略降低了计算成本,实现了对 DiTs 的有效量化到 8 位精度(W8A8),并首次实现了对 4 位权重精度(W4A8)的有效量化。
May, 2024
提出一种用于三维形状生成的新型扩散 Transformer——DiT-3D,直接利用普通 Transformer 对点云数据进行去噪处理;相较于现有 U-Net 方法,该模型规模更具可扩展性且生成体现更高质量的形状。
Jul, 2023
本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
Dec, 2023
通过分析扩散变换器中激活和权重量化的挑战,我们提出了一种单步采样校准激活和适应分组量化权重的低比特量化方法,从而在无需任何优化的情况下在纯变换器结构上实现了高效的后量化,我们通过初步的条件图像生成实验展示了所提出方法的效率和有效性。
Jun, 2024
通过调查 DiT 块与图像生成之间的相关性,发现 DiT 的前述块与生成图像的轮廓有关,而后述块与细节有关。基于此,我们提出了一个全面的无需训练的推断加速框架 Delta-DiT,采用设计的缓存机制来加速早期采样阶段的后述 DiT 块和后期阶段的前述 DiT 块。在 PIXART-alpha 和 DiT-XL 上的大量实验证明,Delta-DiT 在 20 步生成时可以实现 1.6 倍加速,并在大多数情况下性能提高。在 4 步一致模型生成和更具挑战性的 1.12 倍加速的情况下,我们的方法显著优于现有方法。我们的代码将公开提供。
Jun, 2024
将变换器架构引入扩散任务,对潜在空间图像生成进行了研究,发现 U-Net 架构只在 U-Net 归纳偏差中略有优势,提出了 U 型扩散变换器(U-DiT)模型,通过降低计算量并在自注意力中进行令牌下采样,在性能上超过了 DiT-XL/2。
May, 2024