Jan, 2024

具有等时扩散变压器的可扩展高分辨率像素空间图像合成

TL;DR通过沙漏扩散变压器(HDiT),我们提出了一种图像生成模型,在像素空间中支持直接高分辨率(例如 $1024 imes 1024$)训练,具有与像素数量线性扩展的特点。利用已能够扩展到数十亿参数的 Transformer 架构,它在卷积 U-Net 的效率和 Transformer 的可扩展性之间建立了桥梁。HDiT 成功进行训练,无需典型的高分辨率训练技术,如多尺度架构、潜变量自编码器或自条件方法。我们证明 HDiT 在 ImageNet $256^2$ 上与现有模型竞争力相当,并在 FFHQ-$1024^2$ 上创造了扩散模型的最新技术水平。