不是所有的图像区域都很重要:用掩码向量量化进行自回归图像生成
提出了一种新的两阶段框架,它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码,以实现更准确,更紧凑的代码表示,从而解决了现有 VQ 基于自回归模型的固定长度编码问题,该方法通过一种新的堆叠 Transformer 架构和共享内容、独立位置输入层设计,从粗粒度到细粒度生成图像。
May, 2023
本文提出了一种两阶段的框架,由残差量化 VAE(RQ-VAE)和 RQ-Transformer 组成,旨在有效地生成高分辨率图像,通过精确的逼近,我们可以将 256×256 像素的图像表示为 8×8 特征映射,并且 RQ-Transformer 可以在保证生成高品质图像的同时减少计算成本。
Mar, 2022
本文探讨矢量量化变分自编码器模型 (VQ-VAE) 进行大规模图像生成的应用,采用自回归先验信息,结合简单前馈编码器和解码器网络,以压缩的潜变量空间进行自动回归模型采样,同时使用多尺度层级 VQ-VAE 进行生成,取得比 Generative Adversarial Networks 更加优秀的样本生成品质。
Jun, 2019
本文提出了一种基于 VQ-VAE 的鲁棒生成模型(RVQ-VAE),使用两个分离的码本进行训练以处理数据集中可能的异常值,并采用加权欧几里得距离来量化数据点以确保正确的匹配,实验证明此模型能够在大量数据点受到污染时从内固定集合中生成例子。
Feb, 2022
通过引入局部关注机制、融合全局关注和局部关注机制、以及自动编码训练和自回归生成策略,提出了一种高分辨率图像生成的高效两阶段框架,实现了更高效率、更好的重建质量和更高分辨率的图像合成。
Oct, 2023
本文提出了一个基于深度生成模型的图像生成网络,结合卷积神经网络的归纳偏置和自回归的序列建模,通过多重领域特征的变量规范,设计了分布估计的 Gumbel 采样策略来提高图像的生成质量并克服于训练和推理过程中所产生的偏差和误差,取得了当前同类算法中最优秀的生成表现。
Jul, 2022
本文提出一种基于分块离散余弦变换(DCT)块的生成模型,使用 Transformer-based 自回归模型对块进行预测,以生成高质量、多样化的图像,并展示了对于简单的改进,该方法在图像着色和高精度图像放大方面也具有有效性。
Mar, 2021
本文提出了一种基于向量量化 (VQ) 的生成模型的图像压缩编码框架,通过学习 VQGAN 模型的码本可实现在潜空间内对连续信息进行高效压缩,从而在极低比特率下实现优质的重构图像。
Jul, 2023
本研究提出了一种基于矢量量化和自监督学习的 MAE 模型,对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案,实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后,表现优于现有的音频视觉 SER 方法。
May, 2023