自回归模型胜过扩散模型: Llama用于可扩展图像生成
非自回归模型在生成图像时具有高效生成大量图像标记、低推理延迟等特点,与自回归模型相比,其参数规模为346M,使用一台V100 GPU在1秒内生成了一张256×256像素的高质量图像。
Dec, 2023
Visual AutoRegressive modeling (VAR) improves autoregressive image generation surpassing diffusion transformers, exhibiting power-law scaling laws and zero-shot task generalization.
Apr, 2024
这篇论文介绍了一种领域通用的多对多图像生成框架,能够从给定的图像集合中生成相互关联的图像系列,并提供可扩展的解决方案,无需在不同的多图像场景中使用任务特定的解决方案。利用MIS数据集,该方法使用稳定扩散和不同的潜在噪声从单个标题生成一组相互关联的图像。通过在MIS数据集上进行训练,该模型能够捕捉到先前图像(合成或真实)的风格和内容,并生成遵循这些模式的新图像。此外,通过任务特定的微调,我们的模型展示了其适应各种多图像生成任务的能力,包括新视角合成和视觉流程生成。
Apr, 2024
本研究解决了当前自回归图像生成模型在高效生成大词汇量图像时面临的挑战。我们提出了一种新的方法,通过不对称令牌因式分解优化模型的词汇量,并引入“下一个子令牌预测”以提升生成质量。研究结果显示,Open-MAGVIT2在图像重建方面达到了最先进的性能,并促进了这一领域的创新与创造力。
Sep, 2024
本研究解决了图像标记长度对图像重构和生成质量之间的权衡问题。提出的ImageFolder语义标记器通过折叠标记的方式提升自回归建模的生成效率和质量,利用双分支产品量化增强代表能力而不增加标记长度。实验结果表明,ImageFolder标记器在生成质量和标记长度方面表现优越。
Oct, 2024
本研究解决了自回归模型在图像生成任务中的不足,提出了一种统一的观点,强调潜在空间在图像生成建模中的稳定性。通过引入一种有效的离散图像标记器,我们实现了首个在图像生成上超越LDM的GPT风格自回归模型,展示了优化潜在空间和离散标记化对提升图像生成模型能力的潜力。
Oct, 2024
本研究针对语言模型在图像生成中的应用存在的设计空间不足进行了探讨,揭示了图像标记与文本标记的随机性差异对训练的挑战。研究表明,尽管较小模型在捕捉全局上下文方面存在局限性,但较大模型的表现得到了显著提升,本研究为语言模型在视觉生成领域的有效设计提供了重要见解。
Oct, 2024
本研究针对文本到图像(T2I)生成模型在组合生成中的不足,尤其是在捕捉输入提示中的细节时面临的挑战。我们评估了新开源的扩散模型FLUX与现有自回归模型在组合生成能力上的差异,结果显示FLUX在多个指标上表现出色,超越了自回归模型LlamaGen,具有与顶尖闭源模型DALL-E3相当的组合生成能力。
Oct, 2024
本研究解决了图像生成任务中现有方法的性能瓶颈,提出了一种新的随机自回归建模(RAR)方法,通过在训练过程中随机排列输入序列,显著提高模型的双向上下文建模能力。该方法在ImageNet-256基准上的FID分数达到1.48,不仅超越了之前的自回归图像生成模型,还优于前沿的扩散基和掩码变换器方法,具有重要影响。
Nov, 2024