通过语义量化实现结构化世界建模

ICLRFeb, 2024

通过语义量化实现结构化世界建模

Structured World Modeling via Semantic Vector Quantization

Yi-Fu Wu, Minseung Lee, Sungjin Ahn

TL;DR我们提出了一种语义神经离散表示学习的新方法，称为 Semantic Vector-Quantized Variational Autoencoder (SVQ)，通过从底层离散概念模式到对象表示的层次化构建场景表示，并通过训练这些表示上的先验模型来生成图像，并且我们的模型在生成性能和场景理解任务方面表现优于其他非语义向量量化方法。

Abstract

neural discrete representations are crucial components of modern neural networks. However, their main limitation is that the primary strategies such as VQ-VAE can only provide representations at the patch level. Therefore, one of the main goals of →

neural discrete representations representation learning semantic neural discrete representation learning scene representations semantic world modeling

发现论文，激发创造

神经离散表征学习

本文提出了一种简单而强大的生成模型，学习离散表示，可以生成高质量的图像、视频和语音，同时进行说话人转换和音素无监督学习。

Nov, 2017

分层量化自编码器

该研究使用层次 VQ-VAE 近似压缩图像，同时保持感知质量和抽象特征。在 CelebA 和 MNIST 数据集上进行了定性和定量评估。

Feb, 2020

HQ-VAE：具有变分贝叶斯的分层离散表示学习

基于变分贝叶斯框架，提出一种新颖的统一框架，即分层量化变分自动编码器（HQ-VAE），其以离散表示形式随机学习层次化的离散特征，并解决了分层 VQ-VAE 中的代码本 / 层级坍塌问题，从而提高重建性能。

Dec, 2023

利用语义耦合的 VQ 模型进行语义图像合成

通过与向量量化模型预训练的条件式合成潜空间，联合学习条件潜空间和图像潜空间，进一步提高自回归模型的建模能力，并在多个图像数据集上验证其能有效改进语义图像合成性能。

Sep, 2022

利用变压器量化变分自编码器改进离散潜空间中的语义控制

通过使用 Vector Quantized Variational AutoEncoders (VQVAEs) 内的离散潜空间来提高 Transformer-based VAE 中的语义控制和生成性能，我们提出了一种新型模型 T5VQVAE，利用 VQVAEs 的可控性来引导 T5 中的自注意机制，从而更好地保留语义信息并取得优于现有 VAE 模型（包括 Optimus）的性能，在自动编码、文本转换和推理等不同任务中。此外，T5VQVAE 还表现出了改进的推理能力，为下游自然语言和符号推理任务提供了潜在的应用。

Feb, 2024

有限数量的标量量化：简化 VQ-VAE

我们提出使用有限数量标量量化（FSQ）替代 VQ-VAEs 中的向量量化（VQ），通过将 VAE 表示投影到少量维度中，并将每个维度量化为固定值的小集合，从而实现离散表示。我们在图像生成中使用 MaskGIT，以及在深度估计、上色和全景分割中使用 UViM，尽管 FSQ 的设计简单，但在这些任务中获得竞争性表现。我们强调 FSQ 不会出现代码本崩溃问题，也不需要复杂的机制来学习表达丰富的离散表示。

Sep, 2023

向量量化自编码器的理论与实验

该研究利用基于期望最大化算法的训练技术提高 VQ-VAE 模型在 CIFAR-10 数据集上的图像生成结果，并通过知识蒸馏技术，开发出一种非自回归机器翻译模型，其准确性几乎与强贪婪自回归基线变压器相当，但在推理速度上快 3.3 倍。

May, 2018

VQ-NeRF：向量量化增强隐式神经表征

通过向量量化等方法，本文提出了一种名为 VQ-NeRF 的管线，以提高隐式神经表示的效果和效率，并通过多尺度采样和语义损失函数等方法来增强网络保留场景的细节和几何特征。在多个数据集上的评估结果表明，该方法在图像渲染质量和效率之间达到了最佳平衡，性能优于其他方法。

Oct, 2023

SQ-VAE：自退火随机量化的离散表征变分贝叶斯

本文提出了一种名为 SQ-VAE 的新型训练方法，通过引入一种名为自退火的随机量化方法，扩展标准变分自编码器来提高编码本的利用率，并在视觉和语音任务中优于 VAE 和 VQ-VAE

May, 2022

利用卷积神经网络进行生成式和判别式体素建模

本文探讨了三维数据表示方式的重要性，使用基于体素的模型来进行形状建模和物体分类，并提出了训练基于体素的变分自编码器、探索潜空间的用户界面和采用深度卷积神经网络实现物体分类的方法。最终在 ModelNet 基准测试中，我们的模型相较于最新技术提升了 51.5% 的物体分类准确率。

Aug, 2016