Oct, 2024
Fluid:利用连续令牌扩展自回归文本到图像生成模型
Fluid: Scaling Autoregressive Text-to-image Generative Models with
Continuous Tokens
TL;DR本研究解决了自回归模型在文本到图像生成中扩展性不足的问题,探讨了使用离散令牌和连续令牌的影响,以及生成令牌的顺序。结果表明,基于连续令牌的模型在视觉质量上显著优于离散令牌模型,且随机生成的模型在GenEval评分上表现更佳。Fluid模型在MS-COCO 30K上实现了新的无监督FID最优状态,推动了视觉和语言模型之间的扩展研究。