基于 VQ-VAE-2 和有限数据训练 PixelCNN 的分阶段数据增强
本文探讨矢量量化变分自编码器模型 (VQ-VAE) 进行大规模图像生成的应用,采用自回归先验信息,结合简单前馈编码器和解码器网络,以压缩的潜变量空间进行自动回归模型采样,同时使用多尺度层级 VQ-VAE 进行生成,取得比 Generative Adversarial Networks 更加优秀的样本生成品质。
Jun, 2019
本文提出了一种基于深度神经网络的变分自编码器,使用实值非体积保存变换来准确计算数据的条件似然,采用由少量中间层组成的强大条件耦合层来使其学习效果更好,在图像建模任务上有着不错的表现。
Nov, 2016
该研究利用基于期望最大化算法的训练技术提高 VQ-VAE 模型在 CIFAR-10 数据集上的图像生成结果,并通过知识蒸馏技术,开发出一种非自回归机器翻译模型,其准确性几乎与强贪婪自回归基线变压器相当,但在推理速度上快 3.3 倍。
May, 2018
这篇论文提出了 PixelVAE,这是一种基于 PixelCNN 的 VAE 模型,可以高效地捕获大型结构和保留压缩的潜在表示,适用于无监督学习的挑战。
Nov, 2016
本文提出了一种基于 VQ-VAE 的鲁棒生成模型(RVQ-VAE),使用两个分离的码本进行训练以处理数据集中可能的异常值,并采用加权欧几里得距离来量化数据点以确保正确的匹配,实验证明此模型能够在大量数据点受到污染时从内固定集合中生成例子。
Feb, 2022
提出了一种新的两阶段框架,它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码,以实现更准确,更紧凑的代码表示,从而解决了现有 VQ 基于自回归模型的固定长度编码问题,该方法通过一种新的堆叠 Transformer 架构和共享内容、独立位置输入层设计,从粗粒度到细粒度生成图像。
May, 2023
该论文提出了一种基于变分自编码器 (VAE) 的数据生成模型,以增加图像中物体提议的多样性,缓解了训练鲁棒分类器方面的问题,并在 PASCAL VOC 和 MS COCO 数据集上显著提高了少量训练样本情况下的物体检测性能。
Apr, 2023
本论文探讨自然图像的概率模型,并通过引入辅助变量扩展了 PixelCNN 架构家族的自回归模型,提出了两个新的基于不同图像转换的生成式图像模型,包括图像的分辨率金字塔。该模型解决了现有 PixelCNN 模型的两个已知缺点,并表明其产生的图片样本更加真实。
Dec, 2016
通过使用高级的文本到图像扩散模型生成高分辨率、逼真的合成数据,StableQ 方法在零样本和少样本量化方面取得了准确性和效率上的显著改进,通过逆向可学习的令牌嵌入来引导合成数据生成过程,解决了数据稀缺量化的挑战。
Dec, 2023