基于类别和层次的 VAEs 实现多样化语义图像合成和编辑

Jun, 2021

基于类别和层次的 VAEs 实现多样化语义图像合成和编辑

Diversifying Semantic Image Synthesis and Editing via Class- and Layer-wise VAEs

Yuki Endo, Yoshihiro Kanamori

TL;DR本文提出了一种基于变分自编码器的类别和层次的扩展方法，能够通过学习多个潜在空间在本地和全局水平上灵活地控制每个对象类别以处理确定对象样式的各种因素，生成的图像在真实数据集、合成数据集三个不同领域的广泛实验中都表现出更加合理、更具多样性的特点，可用于图像合成和编辑任务。

Abstract

semantic image synthesis is a process for generating photorealistic images from a single semantic mask. To enrich the diversity of multimodal image synthesis, previous methods have controlled the global appearance of an output image by learning a single →

semantic image synthesis variational autoencoder latent space object styles image diversity

发现论文，激发创造

通过 SegVAE 进行可控图像合成

SegVAE 是一个基于变分自编码器的条件图像生成网络，快速合成逼真的语义地图，为各种图像处理、编辑应用提供了良好的基础。

Jul, 2020

利用语义耦合的 VQ 模型进行语义图像合成

通过与向量量化模型预训练的条件式合成潜空间，联合学习条件潜空间和图像潜空间，进一步提高自回归模型的建模能力，并在多个图像数据集上验证其能有效改进语义图像合成性能。

Sep, 2022

使用多模态变分自编码器和语义概念进行广义零样本学习

我们提出了一个多模态变分自编码器 (M-VAE)，能够在学习图像特征和语义空间之间的共享潜在空间上，通过使用多模态损失来拟合多模态数据。该方法可用于预测新样本，且实验结果表明在广义零样本学习方面，我们提出的模型优于当前最先进的方法。

Jun, 2021

针对具有鲁棒性的半监督学习的对抗变分嵌入

我们提出了一种名为 AVAE 的新型对抗生成嵌入框架，该框架将 GAN 的高质量生成模型和 VAE 的后验分布学习器的优势相结合，用于半监督学习，并针对已有的问题进行改进。实践结果表明，我们的方法在半监督分类方面的表现优于现有的最先进模型。

May, 2019

为语义图像合成而拼贴特定类别的 GAN

我们提出了一种高分辨率的语义图像合成方法，它由基本图像生成器和多个类别特定生成器组成。使用类特定模型的生成器进行独立训练，可以产生高质量的高分辨率图像，同时具有对象级别控制的灵活性。

Oct, 2021

基于内容的图像检索的类别特定变分自编码器

本文提出了一种正则化损失的变分自编码器（VAEs），通过强制模型关注感兴趣的类别，使得 VAE 的学习潜在空间适用于特定类别的检索任务，新方法在三个公共数据集和一个自定义数据集上得到比竞争 VAE 的方法更好的表现，尤其是在域内和域外检索问题上。

Apr, 2023

基于语义一致性重编码变分自编码器的单类别新奇检测

本文介绍了一种利用重建模型的潜在空间，结合重新编码机制和语义一致性限制的 Novelty Detection 算法，分为正常、异常和不确定语义区域，并提出了三种训练模式。实验结果表明，该算法在多个数据集上优于其他算法，达到了当前最先进水平。

May, 2023

多模式深度生成模型的变分混合专家自编码器

本文阐述了成功学习多模态生成模型的四个判定标准，提出了一种混合专家多模态变分自编码器（MMVAE）来学习不同模态的生成模型，并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力，从质量和数量两方面进行了定性和定量。

Nov, 2019

端到端语音合成中学习风格控制与转移的潜在表示

本文介绍了利用变分自编码器（VAE）来实现语音合成模型的端到端学习，以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性，使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示，然后将其馈入 TTS 网络来引导语音合成中的风格，可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃，采用了多种技术。最后，所提出的模型在风格控制上表现良好，并在风格转移的 ABX 偏好测试中优于全局风格令牌（GST）模型。

Dec, 2018

多阶段变分自编码器用于粗到细的图像生成

使用多段式 VAE 模型生成高品质图像，通过使用残差块和跳跃连接来增加解码器网络的容量，并使其能够使用多段式生成精细的图像。

May, 2017