CVPRMay, 2023

朝向准确的图像编码:动态向量量化改进自回归图像生成

TL;DR提出了一种新的两阶段框架,它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码,以实现更准确,更紧凑的代码表示,从而解决了现有 VQ 基于自回归模型的固定长度编码问题,该方法通过一种新的堆叠 Transformer 架构和共享内容、独立位置输入层设计,从粗粒度到细粒度生成图像。