神经离散表征学习

Nov, 2017

Neural Discrete Representation Learning

Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu

TL;DR本文提出了一种简单而强大的生成模型，学习离散表示，可以生成高质量的图像、视频和语音，同时进行说话人转换和音素无监督学习。

Abstract

Learning useful representations without supervision remains a key challenge in machine learning. In this paper, we propose a simple yet powerful generative model that learns such discrete representations. Our model, the Vector Quantised-Variational AutoEncoder (VQ-VAE), differs from VA

algorithm machine learning unsupervised learning generative model latent representation

发现论文，激发创造

向量量化自编码器的理论与实验

该研究利用基于期望最大化算法的训练技术提高 VQ-VAE 模型在 CIFAR-10 数据集上的图像生成结果，并通过知识蒸馏技术，开发出一种非自回归机器翻译模型，其准确性几乎与强贪婪自回归基线变压器相当，但在推理速度上快 3.3 倍。

May, 2018

HQ-VAE：具有变分贝叶斯的分层离散表示学习

基于变分贝叶斯框架，提出一种新颖的统一框架，即分层量化变分自动编码器（HQ-VAE），其以离散表示形式随机学习层次化的离散特征，并解决了分层 VQ-VAE 中的代码本 / 层级坍塌问题，从而提高重建性能。

Dec, 2023

利用 VQ-VAE-2 生成多样高保真度图像

本文探讨矢量量化变分自编码器模型 (VQ-VAE) 进行大规模图像生成的应用，采用自回归先验信息，结合简单前馈编码器和解码器网络，以压缩的潜变量空间进行自动回归模型采样，同时使用多尺度层级 VQ-VAE 进行生成，取得比 Generative Adversarial Networks 更加优秀的样本生成品质。

Jun, 2019

分层量化自编码器

该研究使用层次 VQ-VAE 近似压缩图像，同时保持感知质量和抽象特征。在 CelebA 和 MNIST 数据集上进行了定性和定量评估。

Feb, 2020

学习解缠离散表示

通过将标准的高斯变分自编码器（VAE）替换为量身定制的分类变分自编码器，我们探究了离散潜变量空间与解耦表示之间的关系。我们展示了分类分布的基础网格结构可以减轻与多变量高斯分布相关的旋转不变性问题，并作为解耦表示的高效先验。我们提供了分析和经验证据表明，离散 VAE 在学习解耦表示方面的优势。此外，我们引入了第一个偏向于解耦表示的无监督模型选择策略。

Jul, 2023

通过语义量化实现结构化世界建模

我们提出了一种语义神经离散表示学习的新方法，称为 Semantic Vector-Quantized Variational Autoencoder (SVQ)，通过从底层离散概念模式到对象表示的层次化构建场景表示，并通过训练这些表示上的先验模型来生成图像，并且我们的模型在生成性能和场景理解任务方面表现优于其他非语义向量量化方法。

Feb, 2024

SQ-VAE：自退火随机量化的离散表征变分贝叶斯

本文提出了一种名为 SQ-VAE 的新型训练方法，通过引入一种名为自退火的随机量化方法，扩展标准变分自编码器来提高编码本的利用率，并在视觉和语音任务中优于 VAE 和 VQ-VAE

May, 2022

向量量化图自编码器

本文提出了一种基于图神经网络的离散自编码器，Vector-Quantized Graph Auto-Encoder (VQ-GAE)，用于模拟图的分布，通过利用图神经网络的等变性、局部结构和全局结构，以离散向量化的方式将图对象映射到潜在空间中捕捉整体结构，并在图形生成方面显示出优秀的性能。

Jun, 2023

变分贝叶斯量化

我们提出了一种新颖的算法来量化训练模型中的连续潜在表达式，该算法适用于深度概率模型，可以实现数据和模型压缩，并且可以基于后验不确定性使用自适应量化精度来实现可变的码率失真折衷，实验证明了所提出的算法的有效性。

Feb, 2020

LL-VQ-VAE：可学习的格点向量量化用于高效表示

本文介绍了一种可学习的格矢量量化方法 (LL-VQ-VAE)，并证明其对于学习离散表示的有效性。与 VQ-VAE 相比，在相同的训练条件下，我们的方法在重建误差方面较低，训练时间更短，并且具有恒定的参数数量（等于嵌入维度 D），使其成为一种具有可伸缩性的方法。我们在 FFHQ-1024 数据集、FashionMNIST 和 Celeb-A 数据集上展示了这些结果。

Oct, 2023