利用语义耦合的 VQ 模型进行语义图像合成

ICLRSep, 2022

利用语义耦合的 VQ 模型进行语义图像合成

Semantic Image Synthesis with Semantically Coupled VQ-Model

Stephan Alaniz, Thomas Hummel, Zeynep Akata

TL;DR通过与向量量化模型预训练的条件式合成潜空间，联合学习条件潜空间和图像潜空间，进一步提高自回归模型的建模能力，并在多个图像数据集上验证其能有效改进语义图像合成性能。

Abstract

semantic image synthesis enables control over unconditional image generation by allowing guidance on what is being generated. We conditionally synthesize the latent space from a vector quantized model (

semantic image synthesis vq-model latent space autoregressive modeling image datasets

发现论文，激发创造

利用变压器量化变分自编码器改进离散潜空间中的语义控制

通过使用 Vector Quantized Variational AutoEncoders (VQVAEs) 内的离散潜空间来提高 Transformer-based VAE 中的语义控制和生成性能，我们提出了一种新型模型 T5VQVAE，利用 VQVAEs 的可控性来引导 T5 中的自注意机制，从而更好地保留语义信息并取得优于现有 VAE 模型（包括 Optimus）的性能，在自动编码、文本转换和推理等不同任务中。此外，T5VQVAE 还表现出了改进的推理能力，为下游自然语言和符号推理任务提供了潜在的应用。

Feb, 2024

基于类别和层次的 VAEs 实现多样化语义图像合成和编辑

本文提出了一种基于变分自编码器的类别和层次的扩展方法，能够通过学习多个潜在空间在本地和全局水平上灵活地控制每个对象类别以处理确定对象样式的各种因素，生成的图像在真实数据集、合成数据集三个不同领域的广泛实验中都表现出更加合理、更具多样性的特点，可用于图像合成和编辑任务。

Jun, 2021

通过 SegVAE 进行可控图像合成

SegVAE 是一个基于变分自编码器的条件图像生成网络，快速合成逼真的语义地图，为各种图像处理、编辑应用提供了良好的基础。

Jul, 2020

自回归图像生成与集成量化

本文提出了一个基于深度生成模型的图像生成网络，结合卷积神经网络的归纳偏置和自回归的序列建模，通过多重领域特征的变量规范，设计了分布估计的 Gumbel 采样策略来提高图像的生成质量并克服于训练和推理过程中所产生的偏差和误差，取得了当前同类算法中最优秀的生成表现。

Jul, 2022

语言量化自编码器：朝向无监督的文本图像对齐

通过引入 Language-Quantized AutoEncoder (LQAE) 这一基于无监督方法的模型，利用预训练语言模型（如 BERT，RoBERTa）来解决大型语言模型缺乏图像感知的问题，并有效地将图像和文本信息进行对齐，通过 LQAE 学习将图像编码为一系列文本符号，使 LQAE 能够将不对齐的图像用于多模态任务，以及使用 BERT 文本特征对图像进行线性分类。

Feb, 2023

改进 VQGAN 的向量量化图像建模

使用预训练 Transformers 模型，结合 VQGAN 模型实现离散图像向量量化，进一步提高了图像生成和无监督表示学习的效率和准确性。同时，该模型还在 ImageNet 数据集上的线性探针准确性方面的表现优于同等规模的 Image GPT-L 和 Image GPT-XL 模型。

Oct, 2021

利用 VQ-VAE-2 生成多样高保真度图像

本文探讨矢量量化变分自编码器模型 (VQ-VAE) 进行大规模图像生成的应用，采用自回归先验信息，结合简单前馈编码器和解码器网络，以压缩的潜变量空间进行自动回归模型采样，同时使用多尺度层级 VQ-VAE 进行生成，取得比 Generative Adversarial Networks 更加优秀的样本生成品质。

Jun, 2019

通过语义量化实现结构化世界建模

我们提出了一种语义神经离散表示学习的新方法，称为 Semantic Vector-Quantized Variational Autoencoder (SVQ)，通过从底层离散概念模式到对象表示的层次化构建场景表示，并通过训练这些表示上的先验模型来生成图像，并且我们的模型在生成性能和场景理解任务方面表现优于其他非语义向量量化方法。

Feb, 2024

LG-VQ：语言导向的代码本学习

本文提出了一种新颖的语言引导的码书学习框架 (LG-VQ)，旨在学习与文本对齐的码书，以提高多模态下游任务的性能。实验结果表明，我们的方法在重构和各种多模态下游任务上取得了优越的性能。

May, 2024

CCVS: 上下文感知可控视频合成

本文提出了一种自监督学习方法，用于从旧视频剪辑中合成新视频剪辑，并介绍了多个新的关键元素，以改善其空间分辨率和逼真程度。通过对时间连续性的上下文信息和对精细控制的辅助信息进行综合利用，该方法的预测模型在自编码器的潜在空间和图像空间中进行双自回归，以提高其输出的逼真程度，并通过可学习的光流模块来实现时空一致性。同时，插入于编码器和潜在空间预测模块之间的量化器和插入于预测模块和解码器之间的其逆操作提供了额外的灵活性。实验结果表明，该方法在多个任务和标准基准测试上的定性和定量结果都非常好。

Jul, 2021