Feb, 2024

具有状态空间支撑的可扩展扩散模型

TL;DR本文介绍了基于状态空间架构构建扩散模型的新探索,通过训练扩散模型用于图像数据,使用状态空间骨干替代传统的 U-Net 骨干,处理原始补丁或潜在空间的图像。通过对 DiS 的评估,包括无条件和类条件的图像生成场景,发现 DiS 在与同等大小的基于 CNN 或变压器的 U-Net 架构相比具有可比甚至更好的性能。此外,我们还分析了 DiS 的可扩展性,通过 Gflops 量化前向传递复杂性进行评估。通过增加深度 / 宽度或增加输入令牌的方式获得更高 Gflops 的 DiS 模型,始终表现出更低的 FID。在潜在空间中,DiS-H/2 模型在 256x256 和 512x512 分辨率下,达到了类条件 ImageNet 基准的性能水平,并显著减轻了计算负担。