通过语义量化实现结构化世界建模
基于变分贝叶斯框架,提出一种新颖的统一框架,即分层量化变分自动编码器(HQ-VAE),其以离散表示形式随机学习层次化的离散特征,并解决了分层 VQ-VAE 中的代码本 / 层级坍塌问题,从而提高重建性能。
Dec, 2023
通过与向量量化模型预训练的条件式合成潜空间,联合学习条件潜空间和图像潜空间,进一步提高自回归模型的建模能力,并在多个图像数据集上验证其能有效改进语义图像合成性能。
Sep, 2022
通过使用 Vector Quantized Variational AutoEncoders (VQVAEs) 内的离散潜空间来提高 Transformer-based VAE 中的语义控制和生成性能,我们提出了一种新型模型 T5VQVAE,利用 VQVAEs 的可控性来引导 T5 中的自注意机制,从而更好地保留语义信息并取得优于现有 VAE 模型(包括 Optimus)的性能,在自动编码、文本转换和推理等不同任务中。此外,T5VQVAE 还表现出了改进的推理能力,为下游自然语言和符号推理任务提供了潜在的应用。
Feb, 2024
我们提出使用有限数量标量量化(FSQ)替代 VQ-VAEs 中的向量量化(VQ),通过将 VAE 表示投影到少量维度中,并将每个维度量化为固定值的小集合,从而实现离散表示。我们在图像生成中使用 MaskGIT,以及在深度估计、上色和全景分割中使用 UViM,尽管 FSQ 的设计简单,但在这些任务中获得竞争性表现。我们强调 FSQ 不会出现代码本崩溃问题,也不需要复杂的机制来学习表达丰富的离散表示。
Sep, 2023
该研究利用基于期望最大化算法的训练技术提高 VQ-VAE 模型在 CIFAR-10 数据集上的图像生成结果,并通过知识蒸馏技术,开发出一种非自回归机器翻译模型,其准确性几乎与强贪婪自回归基线变压器相当,但在推理速度上快 3.3 倍。
May, 2018
通过向量量化等方法,本文提出了一种名为 VQ-NeRF 的管线,以提高隐式神经表示的效果和效率,并通过多尺度采样和语义损失函数等方法来增强网络保留场景的细节和几何特征。在多个数据集上的评估结果表明,该方法在图像渲染质量和效率之间达到了最佳平衡,性能优于其他方法。
Oct, 2023
本文提出了一种名为 SQ-VAE 的新型训练方法,通过引入一种名为自退火的随机量化方法,扩展标准变分自编码器来提高编码本的利用率,并在视觉和语音任务中优于 VAE 和 VQ-VAE
May, 2022
本文探讨了三维数据表示方式的重要性,使用基于体素的模型来进行形状建模和物体分类,并提出了训练基于体素的变分自编码器、探索潜空间的用户界面和采用深度卷积神经网络实现物体分类的方法。最终在 ModelNet 基准测试中,我们的模型相较于最新技术提升了 51.5% 的物体分类准确率。
Aug, 2016