May, 2024

TerDiT: 基于 Transformer 的三元扩散模型

TL;DR我们提出了 TerDiT,一种针对具有 transformer 的三态扩散模型的量化感知训练(QAT)和有效部署方案,致力于探索大规模 DiT 模型的高效部署策略,展示了从头开始训练极低比特扩散变压器模型的可行性,同时保持与全精度模型相比有竞争力的图像生成能力。