Nov, 2024

随机自回归视觉生成

TL;DR本研究解决了图像生成任务中现有方法的性能瓶颈,提出了一种新的随机自回归建模(RAR)方法,通过在训练过程中随机排列输入序列,显著提高模型的双向上下文建模能力。该方法在ImageNet-256基准上的FID分数达到1.48,不仅超越了之前的自回归图像生成模型,还优于前沿的扩散基和掩码变换器方法,具有重要影响。