基于 VQ-VAE-2 和有限数据训练 PixelCNN 的分阶段数据增强

May, 2023

基于 VQ-VAE-2 和有限数据训练 PixelCNN 的分阶段数据增强

Phased data augmentation for training PixelCNNs with VQ-VAE-2 and limited data

Yuta Mimura

TL;DR通过阶段性数据增强的方式，提出了一种对于有限数据进行有效训练 PixelCNNs 模型的方法，并在数量和质量上优于传统的大数据训练模型。

Abstract

With development of deep learning, researchers have developed generative models in generating realistic images. One of such generative models, a pixelcnns model with Vector Quantized Variational AutoEncoder 2 (

generative models pixelcnns vq-vae-2 data-efficient phased data augmentation

发现论文，激发创造

利用 VQ-VAE-2 生成多样高保真度图像

本文探讨矢量量化变分自编码器模型 (VQ-VAE) 进行大规模图像生成的应用，采用自回归先验信息，结合简单前馈编码器和解码器网络，以压缩的潜变量空间进行自动回归模型采样，同时使用多尺度层级 VQ-VAE 进行生成，取得比 Generative Adversarial Networks 更加优秀的样本生成品质。

Jun, 2019

深度变分推断无需像素级重构

本文提出了一种基于深度神经网络的变分自编码器，使用实值非体积保存变换来准确计算数据的条件似然，采用由少量中间层组成的强大条件耦合层来使其学习效果更好，在图像建模任务上有着不错的表现。

Nov, 2016

向量量化自编码器的理论与实验

该研究利用基于期望最大化算法的训练技术提高 VQ-VAE 模型在 CIFAR-10 数据集上的图像生成结果，并通过知识蒸馏技术，开发出一种非自回归机器翻译模型，其准确性几乎与强贪婪自回归基线变压器相当，但在推理速度上快 3.3 倍。

May, 2018

PixelVAE：自然图像的潜变量模型

这篇论文提出了 PixelVAE，这是一种基于 PixelCNN 的 VAE 模型，可以高效地捕获大型结构和保留压缩的潜在表示，适用于无监督学习的挑战。

Nov, 2016

鲁棒量化向量变分自编码器

本文提出了一种基于 VQ-VAE 的鲁棒生成模型（RVQ-VAE），使用两个分离的码本进行训练以处理数据集中可能的异常值，并采用加权欧几里得距离来量化数据点以确保正确的匹配，实验证明此模型能够在大量数据点受到污染时从内固定集合中生成例子。

Feb, 2022

朝向准确的图像编码：动态向量量化改进自回归图像生成

提出了一种新的两阶段框架，它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码，以实现更准确，更紧凑的代码表示，从而解决了现有 VQ 基于自回归模型的固定长度编码问题，该方法通过一种新的堆叠 Transformer 架构和共享内容、独立位置输入层设计，从粗粒度到细粒度生成图像。

May, 2023

增加与农作物相关的特征多样性用于少样本目标检测

该论文提出了一种基于变分自编码器 (VAE) 的数据生成模型，以增加图像中物体提议的多样性，缓解了训练鲁棒分类器方面的问题，并在 PASCAL VOC 和 MS COCO 数据集上显著提高了少量训练样本情况下的物体检测性能。

Apr, 2023

使用辅助变量的 PixelCNN 模型进行自然图像建模

本论文探讨自然图像的概率模型，并通过引入辅助变量扩展了 PixelCNN 架构家族的自回归模型，提出了两个新的基于不同图像转换的生成式图像模型，包括图像的分辨率金字塔。该模型解决了现有 PixelCNN 模型的两个已知缺点，并表明其产生的图片样本更加真实。

Dec, 2016

分层量化自编码器

该研究使用层次 VQ-VAE 近似压缩图像，同时保持感知质量和抽象特征。在 CelebA 和 MNIST 数据集上进行了定性和定量评估。

Feb, 2020

StableQ：利用文本到图像数据增强数据稀缺量化

通过使用高级的文本到图像扩散模型生成高分辨率、逼真的合成数据，StableQ 方法在零样本和少样本量化方面取得了准确性和效率上的显著改进，通过逆向可学习的令牌嵌入来引导合成数据生成过程，解决了数据稀缺量化的挑战。

Dec, 2023