BriefGPT.xyz
Oct, 2024
HART:高效的混合自回归变换器视觉生成模型
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
HTML
PDF
Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen...
TL;DR
本文提出混合自回归变换器(HART),旨在解决现有自回归模型在生成1024x1024图像时耐受低图像重构质量的问题。通过引入混合标记器,分解连续潜变量,实现对大图像及其残余部分的有效建模,HART在图像生成质量上超越了最新的扩散模型,并显著提高生成速度和效率。
Abstract
We introduce Hybrid Autoregressive
Transformer
(HART), an autoregressive (AR)
Visual Generation
model capable of directly generating 1024x1024 images, rivaling diffusion models in image generation quality. Existi
→