小波是自回归图像生成的全部所需
本文提出了一种两阶段的框架,由残差量化VAE(RQ-VAE)和RQ-Transformer组成,旨在有效地生成高分辨率图像,通过精确的逼近,我们可以将256×256像素的图像表示为8×8特征映射,并且RQ-Transformer可以在保证生成高品质图像的同时减少计算成本。
Mar, 2022
提出了一种新的两阶段框架,它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码,以实现更准确,更紧凑的代码表示,从而解决了现有 VQ 基于自回归模型的固定长度编码问题,该方法通过一种新的堆叠 Transformer 架构和共享内容、独立位置输入层设计,从粗粒度到细粒度生成图像。
May, 2023
本研究提出了一种新的两阶段框架,包括掩蔽量化VAE(MQ-VAE)和Stackformer,在图像生成中减轻冗余感知信息的影响,实现了高效有效的图像生成。
May, 2023
我们提出了使用扩散过程模型每个令牌的概率分布,从而可以将自回归模型应用于连续值空间的方法,并通过定义扩散损失函数来替代离散化的令牌化。通过消除向量量化,我们的图像生成器在享受序列建模的速度优势的同时取得了强大的结果,并希望该方法能促进在其他连续值领域和应用中使用自回归生成。
Jun, 2024
本研究解决了图像和视频生成领域在离散化方面的挑战,提出了一种基于规范编解码器(如JPEG、AVC/H.264)直接建模图像和视频的新方法。研究发现,该方法比传统的像素建模和复杂的向量量化算法更有效,对于生成罕见视觉元素具有显著优势。这一创新方法有助于降低语言生成与视觉生成之间的壁垒,促进多模态大型语言模型的进一步研究。
Aug, 2024
本研究解决了在视觉生成中的离散化问题,通过采用典型编解码器(如JPEG和AVC/H.264)直接建模图像和视频作为压缩文件,而非处理原始像素值或复杂的向量量化。这一新颖方法使生成性能在减少FID指标方面优于传统模型,特别是在生成长尾视觉元素上表现出色,推动了多模态语言/图像/视频模型的未来研究。
Aug, 2024
本研究解决了向量量化自回归图像生成中的信息损失瓶颈,通过引入一种新的二维自回归变压器(DnD-Transformer)模型架构。相比传统的一维自回归方法,DnD-Transformer以新的自回归方向和模型深度实现更高质量的图像生成,并在自我监督的方式下有效生成包含文本和图形元素的图像,展示出其视觉语言智能的潜力。
Oct, 2024
本文提出混合自回归变换器(HART),旨在解决现有自回归模型在生成1024x1024图像时耐受低图像重构质量的问题。通过引入混合标记器,分解连续潜变量,实现对大图像及其残余部分的有效建模,HART在图像生成质量上超越了最新的扩散模型,并显著提高生成速度和效率。
Oct, 2024
本研究解决了自回归模型在文本到图像生成中扩展性不足的问题,探讨了使用离散令牌和连续令牌的影响,以及生成令牌的顺序。结果表明,基于连续令牌的模型在视觉质量上显著优于离散令牌模型,且随机生成的模型在GenEval评分上表现更佳。Fluid模型在MS-COCO 30K上实现了新的无监督FID最优状态,推动了视觉和语言模型之间的扩展研究。
Oct, 2024
本研究解决了图像生成任务中现有方法的性能瓶颈,提出了一种新的随机自回归建模(RAR)方法,通过在训练过程中随机排列输入序列,显著提高模型的双向上下文建模能力。该方法在ImageNet-256基准上的FID分数达到1.48,不仅超越了之前的自回归图像生成模型,还优于前沿的扩散基和掩码变换器方法,具有重要影响。
Nov, 2024