TerDiT: 基于 Transformer 的三元扩散模型

May, 2024

TerDiT: 基于 Transformer 的三元扩散模型

TerDiT: Ternary Diffusion Models with Transformers

Xudong Lu, Aojun Zhou, Ziyi Lin, Qi Liu, Yuhui Xu...

TL;DR我们提出了 TerDiT，一种针对具有 transformer 的三态扩散模型的量化感知训练（QAT）和有效部署方案，致力于探索大规模 DiT 模型的高效部署策略，展示了从头开始训练极低比特扩散变压器模型的可行性，同时保持与全精度模型相比有竞争力的图像生成能力。

Abstract

Recent developments in large-scale pre-trained text-to-image diffusion models have significantly improved the generation of high-fidelity images, particularly with the emergence of →

pre-trained diffusion models transformer architecture quantization-aware training ternary diffusion models

发现论文，激发创造

Q-DiT：扩散变压器的准确后训练量化

Q-DiT 是一种结合了精细化量化、自动搜索策略和动态激活量化的方法，用于处理 Diffusion Transformer（DiT）模型中的权重和激活的巨大变化，以实现高效、高质量的量化和图像生成。

Jun, 2024

ViDiT-Q: 图像和视频生成的扩散变压器的高效准确量化

Diffusion transformers have challenges in quantization, but the proposed ViDiT-Q method achieves lossless W8A8 quantization and ViDiT-Q-MP achieves W4A8 with negligible visual quality degradation, resulting in memory optimization and latency speedup.

Jun, 2024

高效的 FP4 混合量化扩散变换器（HQ-DiT）

Diffusion Transformers (DiTs) are improved by Hybrid Floating-point Quantization (HQ-DiT), a post-training quantization method utilizing 4-bit floating-point precision on both weights and activations, resulting in low-precision quantization with minimal impact on performance.

May, 2024

可扩展的 Transformer 扩散模型

本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer，通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性，并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型，后者在 256x256 基准测试上实现了先进的 FID (2.27)。

Dec, 2022

PTQ4DiT：扩散变压器的后训练量化

为了解决 Diffusion Transformers（DiTs）中特定的量化挑战，本文提出了一种特定的 Post-training Quantization（PTQ）方法，称为 PTQ4DiT。通过 Channel-wise Salience Balancing（CSB）和 Spearmen's ρ-guided Salience Calibration（SSC）来解决 DiTs 中存在的通道不平衡和时间变化的挑战，并通过离线重新参数化策略降低了计算成本，实现了对 DiTs 的有效量化到 8 位精度（W8A8），并首次实现了对 4 位权重精度（W4A8）的有效量化。

May, 2024

探索纯扩散变压器与三维形状生成

提出一种用于三维形状生成的新型扩散 Transformer——DiT-3D，直接利用普通 Transformer 对点云数据进行去噪处理；相较于现有 U-Net 方法，该模型规模更具可扩展性且生成体现更高质量的形状。

Jul, 2023

DiffiT：用于图像生成的扩散视觉 Transformer

本文研究了视觉 transformer 在基于扩散的生成学习中的有效性，并提出了一种新的模型 Diffusion Vision Transformers（DiffiT），该模型在多个条件和无条件综合任务中取得了最新的基准成绩，生成了高保真度图片。

Dec, 2023

量化扩散变压器分析

通过分析扩散变换器中激活和权重量化的挑战，我们提出了一种单步采样校准激活和适应分组量化权重的低比特量化方法，从而在无需任何优化的情况下在纯变换器结构上实现了高效的后量化，我们通过初步的条件图像生成实验展示了所提出方法的效率和有效性。

Jun, 2024

$Δ$-DiT：一种为扩散变换器量身定制的无需训练的加速方法

通过调查 DiT 块与图像生成之间的相关性，发现 DiT 的前述块与生成图像的轮廓有关，而后述块与细节有关。基于此，我们提出了一个全面的无需训练的推断加速框架 Delta-DiT，采用设计的缓存机制来加速早期采样阶段的后述 DiT 块和后期阶段的前述 DiT 块。在 PIXART-alpha 和 DiT-XL 上的大量实验证明，Delta-DiT 在 20 步生成时可以实现 1.6 倍加速，并在大多数情况下性能提高。在 4 步一致模型生成和更具挑战性的 1.12 倍加速的情况下，我们的方法显著优于现有方法。我们的代码将公开提供。

Jun, 2024

U-DiTs：在 U 形扩散变压器中降采样 Token

将变换器架构引入扩散任务，对潜在空间图像生成进行了研究，发现 U-Net 架构只在 U-Net 归纳偏差中略有优势，提出了 U 型扩散变换器（U-DiT）模型，通过降低计算量并在自注意力中进行令牌下采样，在性能上超过了 DiT-XL/2。

May, 2024