基于类别和层次的 VAEs 实现多样化语义图像合成和编辑
通过与向量量化模型预训练的条件式合成潜空间,联合学习条件潜空间和图像潜空间,进一步提高自回归模型的建模能力,并在多个图像数据集上验证其能有效改进语义图像合成性能。
Sep, 2022
我们提出了一个多模态变分自编码器 (M-VAE),能够在学习图像特征和语义空间之间的共享潜在空间上,通过使用多模态损失来拟合多模态数据。该方法可用于预测新样本,且实验结果表明在广义零样本学习方面,我们提出的模型优于当前最先进的方法。
Jun, 2021
我们提出了一种名为 AVAE 的新型对抗生成嵌入框架,该框架将 GAN 的高质量生成模型和 VAE 的后验分布学习器的优势相结合,用于半监督学习,并针对已有的问题进行改进。实践结果表明,我们的方法在半监督分类方面的表现优于现有的最先进模型。
May, 2019
我们提出了一种高分辨率的语义图像合成方法,它由基本图像生成器和多个类别特定生成器组成。使用类特定模型的生成器进行独立训练,可以产生高质量的高分辨率图像,同时具有对象级别控制的灵活性。
Oct, 2021
本文提出了一种正则化损失的变分自编码器(VAEs),通过强制模型关注感兴趣的类别,使得 VAE 的学习潜在空间适用于特定类别的检索任务,新方法在三个公共数据集和一个自定义数据集上得到比竞争 VAE 的方法更好的表现,尤其是在域内和域外检索问题上。
Apr, 2023
本文介绍了一种利用重建模型的潜在空间,结合重新编码机制和语义一致性限制的 Novelty Detection 算法,分为正常、异常和不确定语义区域,并提出了三种训练模式。 实验结果表明,该算法在多个数据集上优于其他算法,达到了当前最先进水平。
May, 2023
本文阐述了成功学习多模态生成模型的四个判定标准,提出了一种混合专家多模态变分自编码器(MMVAE)来学习不同模态的生成模型,并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力,从质量和数量两方面进行了定性和定量。
Nov, 2019
本文介绍了利用变分自编码器(VAE)来实现语音合成模型的端到端学习,以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性,使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示,然后将其馈入 TTS 网络来引导语音合成中的风格,可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃,采用了多种技术。最后,所提出的模型在风格控制上表现良好,并在风格转移的 ABX 偏好测试中优于全局风格令牌(GST)模型。
Dec, 2018