图像文件夹:折叠标记的自回归图像生成
通过引入MAGVIT-v2作为视觉分词器,本文展示了大型语言模型(LLMs)在图像和视频生成上优于扩散模型,并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。
Oct, 2023
LlamaGen是一种新型的图像生成模型家族,采用大型语言模型中的原始“下一个标记预测”范例应用于视觉生成领域,不附带对视觉信号的归纳偏见,可以在适当缩放的情况下实现最先进的图像生成性能。
Jun, 2024
这篇研究论文介绍了一种基于Transformer的一维令牌化方法(TiTok),其将图像令牌化为一维潜在序列,通过提供更紧凑的潜在表示形式,实现了比传统技术更高效和更有效的图像合成。
Jun, 2024
我们提出了使用扩散过程模型每个令牌的概率分布,从而可以将自回归模型应用于连续值空间的方法,并通过定义扩散损失函数来替代离散化的令牌化。通过消除向量量化,我们的图像生成器在享受序列建模的速度优势的同时取得了强大的结果,并希望该方法能促进在其他连续值领域和应用中使用自回归生成。
Jun, 2024
本研究解决了当前自回归图像生成模型在高效生成大词汇量图像时面临的挑战。我们提出了一种新的方法,通过不对称令牌因式分解优化模型的词汇量,并引入“下一个子令牌预测”以提升生成质量。研究结果显示,Open-MAGVIT2在图像重建方面达到了最先进的性能,并促进了这一领域的创新与创造力。
Sep, 2024
本研究解决了现有视觉tokenization方法中重建过程的单一性问题,提出将去噪视为解码的新视角。通过用扩散过程替换传统解码器,该方法迭代性地精炼噪声以恢复原始图像,从而提高了图像生成和压缩的效果。研究表明,该方法在重建和生成质量上优于当前最先进的自编码方法。
Oct, 2024
本研究解决了自回归模型在图像生成任务中的不足,提出了一种统一的观点,强调潜在空间在图像生成建模中的稳定性。通过引入一种有效的离散图像标记器,我们实现了首个在图像生成上超越LDM的GPT风格自回归模型,展示了优化潜在空间和离散标记化对提升图像生成模型能力的潜力。
Oct, 2024
本研究解决了自回归模型在文本到图像生成中扩展性不足的问题,探讨了使用离散令牌和连续令牌的影响,以及生成令牌的顺序。结果表明,基于连续令牌的模型在视觉质量上显著优于离散令牌模型,且随机生成的模型在GenEval评分上表现更佳。Fluid模型在MS-COCO 30K上实现了新的无监督FID最优状态,推动了视觉和语言模型之间的扩展研究。
Oct, 2024
本研究解决了图像生成任务中现有方法的性能瓶颈,提出了一种新的随机自回归建模(RAR)方法,通过在训练过程中随机排列输入序列,显著提高模型的双向上下文建模能力。该方法在ImageNet-256基准上的FID分数达到1.48,不仅超越了之前的自回归图像生成模型,还优于前沿的扩散基和掩码变换器方法,具有重要影响。
Nov, 2024
本研究解决了图像理解(IU)模型在提升图像生成(IG)性能方面的潜力未被充分挖掘的问题。我们提出了一种基于特征重建目标的分词器训练方法,利用预训练的IU编码器提取知识,从而显著提高了IG性能,特别是VQ-KD CLIP在ImageNet-1k上达到了$4.10$的FID值。这些发现可能激励对图像分词器研究的进一步探索,并促使社区重新审视IU与IG之间的关系。
Nov, 2024