Oct, 2024

视觉语言智能的火花:用于高效细粒度图像生成的二维自回归变压器

TL;DR本研究解决了向量量化自回归图像生成中的信息损失瓶颈,通过引入一种新的二维自回归变压器(DnD-Transformer)模型架构。相比传统的一维自回归方法,DnD-Transformer以新的自回归方向和模型深度实现更高质量的图像生成,并在自我监督的方式下有效生成包含文本和图形元素的图像,展示出其视觉语言智能的潜力。