ICLRFeb, 2024

通过语义量化实现结构化世界建模

TL;DR我们提出了一种语义神经离散表示学习的新方法,称为 Semantic Vector-Quantized Variational Autoencoder (SVQ),通过从底层离散概念模式到对象表示的层次化构建场景表示,并通过训练这些表示上的先验模型来生成图像,并且我们的模型在生成性能和场景理解任务方面表现优于其他非语义向量量化方法。