May, 2023
朝向准确的图像编码: 动态向量量化改进自回归图像生成
Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization
TL;DR提出了一种新的两阶段框架,它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码,以实现更准确,更紧凑的代码表示,从而解决了现有 VQ 基于自回归模型的固定长度编码问题,该方法通过一种新的堆叠 Transformer 架构和共享内容、独立位置输入层设计,从粗粒度到细粒度生成图像。