高效VDVAE:少即是多
本文研究了变分自编码器(VAE)在训练时出现的后验崩溃现象。针对训练动态的观察,我们提出了一种极其简单的改进VAE的训练方法,避免了之前工作中普遍存在的后验崩溃问题,并取得了比基准模型更优的实验结果。
Jan, 2019
本文探讨矢量量化变分自编码器模型(VQ-VAE)进行大规模图像生成的应用,采用自回归先验信息,结合简单前馈编码器和解码器网络,以压缩的潜变量空间进行自动回归模型采样,同时使用多尺度层级VQ-VAE进行生成,取得比Generative Adversarial Networks更加优秀的样本生成品质。
Jun, 2019
提出了一种用于图像生成的深度分层变分自编码器(NVAE),其使用深度分离卷积和批归一化。NVAE在MNIST、CIFAR-10、CelebA 64和CelebA HQ数据集上取得了最先进的结果,并为FFHQ提供了强大的基准。NVAE是最成功的VAE应用于自然图像,尺寸达到了256x256像素。
Jul, 2020
针对变分自编码器的先验洞问题,我们提出了一种能源化先验,通过基础先验分布和重新加权因子的乘积来定义,以使基础先验更接近集体后验,并通过噪声对比估计来训练重新加权因子,实验证明此方法可以大幅提高MNIST、CIFAR-10、CelebA 64和CelebA HQ 256数据集上的最先进VAE的生成性能。
Oct, 2020
本文提出了具有层次结构的VAE,并且在所有自然图像基准上,它比PixelCNN更快地生成样本的同时在对数似然上表现更好。我们通过将VAE的随机深度比以前探索的更深来测试不足深度是否会导致VAE性能下降。与PixelCNN相比,这些非常深的VAE可以获得更高的似然度,使用更少的参数,更快地生成样本,并且对高分辨率图像更容易应用,这是因为VAE学习了高效的分层视觉表示。
Nov, 2020
我们提出使用有限数量标量量化(FSQ)替代VQ-VAEs中的向量量化(VQ),通过将VAE表示投影到少量维度中,并将每个维度量化为固定值的小集合,从而实现离散表示。我们在图像生成中使用MaskGIT,以及在深度估计、上色和全景分割中使用UViM,尽管FSQ的设计简单,但在这些任务中获得竞争性表现。我们强调FSQ不会出现代码本崩溃问题,也不需要复杂的机制来学习表达丰富的离散表示。
Sep, 2023
基于变分贝叶斯框架,提出一种新颖的统一框架,即分层量化变分自动编码器(HQ-VAE),其以离散表示形式随机学习层次化的离散特征,并解决了分层 VQ-VAE 中的代码本/层级坍塌问题,从而提高重建性能。
Dec, 2023
我们提出了一个名为CV-VAE的视频VAE方法,通过与给定图像VAE进行潜在空间的兼容性来实现训练视频模型,并展示了其在视频生成和压缩方面的有效性。
May, 2024