Jan, 2024

SiT: 基于可扩展插值变换器的流与扩散生成模型探索

TL;DRSiT 是一种建立在 DiT 基础之上的生成模型,通过插值框架实现了对各种设计选择的模块化研究,从离散和连续时间学习到模型学习的目标选择,插值连接分布以及确定性或随机采样器等。在相同的基础、参数数量和 GFLOPs 下,通过精心引入上述因素,SiT 在条件 ImageNet 256x256 基准测试中表现出色,并通过探索各种可以单独调整的扩散系数,达到了 2.06 的 FID-50K 分数。