修订多模态变分自编码器与扩散解码器的结合

Aug, 2024

修订多模态变分自编码器与扩散解码器的结合

Revising Multimodal VAEs with Diffusion Decoders

Daniel Wesego, Amirmohammad Rooshenas

TL;DR该研究解决了多模态变分自编码器在生成高质量输出方面的挑战，特别是受到潜在空间的联合表示限制。通过引入灵活的扩散解码器，该方法显著提升了图像模态的生成质量，同时改善了依赖前馈解码器的其他模态的性能，推动了多模态生成任务的进展。

Abstract

Multimodal VAEs often struggle with generating high-quality outputs, a challenge that extends beyond the inherent limitations of the VAE framework. The core issue lies in the restricted joint representation of the latent space, particularly when complex modalities like images are involved. Feedforward decoders, commonly used for these intricate modalities, i

发现论文，激发创造

深度生成模型的联合多模态学习

本文介绍了一种基于深度生成模型的多模态交换方法，提出了条件独立的联合表示的概念，实现了对不同模态之间的高级概念进行双向交换，并通过对比实验表明该模型的有效性。

Nov, 2016

多模态变分自编码器的局限性

研究发现，多模态变分自编码器存在上界限制，导致其生成质量不如完全无监督的单模态自编码器，且当前的算法无法满足所有复杂数据集上的期望表现，限制了其在弱监督数据建模应用中的实际效果。

Oct, 2021

DiffuseVAE: 从低维潜变量中高效、可控、高保真生成

提出了一种新的生成框架DiffuseVAE，它将VAE与扩散建模框架相结合，为扩散模型提供了低维的VAE学习到的潜在代码，从而能够用于控制合成等下游任务，并且在速度与质量的平衡方面比标准无条件DDPM / DDIM模型要好，同时表现出与最先进的模型可比的综合质量，还显示出天生的对不同类型的噪声具有泛化能力。

Jan, 2022

通过公正优化减轻多模态VAEs中的模态坍塌

本文提出了一种训练框架，以确保不同模态之间的均衡优化，解决了多模态VAE模型在训练过程中出现的模态崩溃问题，提升了重建性能、条件生成和潜在空间的连贯性。

Jun, 2022

基于得分的多模态自编码器

本研究提出一种新的方法，通过使用基于分数的模型（SBMs）共同建模单模VAEs的潜在空间，以增强多模态VAEs的生成性能。该模型利用SBM学习潜在变量之间的相关性来强制执行多模态一致性，从而将单模VAEs的优异生成质量与不同模态的协同集成相结合。

May, 2023

去扩散使文本成为强大的跨模态接口

我们展示了一种以文本作为强大的跨模态接口的方法，通过将图像表示为文本，利用自然语言的可解释性和灵活性，我们使用一个自动编码器，将输入图像转换为文本，并通过固定的文本到图像扩散解码器进行重构，该过程称为De-Diffusion。实验证实了De-Diffusion文本表示图像的精确性和综合性，使其可以轻松地被一般的文本到图像工具和LLMs接收，并可用于多样化的多模态任务。

Nov, 2023

高效的多模态扩散模型：联合数据填充与部分共享 U-Net

通过使用部分共享U-Net (PS-U-Net) 架构及新的有效的多模态采样方法，本研究成功开发出高质量的多模态文本和图像数据生成模型，同时具备与现有模型相比相当的大小、更快的训练速度、更快的多模态采样以及更灵活的生成。

Nov, 2023

多模态VAEs中的统一多样性：改进的表示学习

用于多模态数据的变分自编码器在数据分析中具有许多任务的潜力，如表示学习、条件生成和插补。我们通过用软约束替换这些硬约束，提出了一种新的专家混合先验方法，软指导每个模态的潜编码向共享的聚合后验靠近，从而得到一个更好的潜编码表示，并提高了对缺失数据模态的填充能力。在多个基准数据集和具有挑战性的现实神经科学数据集上进行了广泛实验证明，与现有方法相比，学到的潜编码表示和缺失数据模态的插补有所改进。

Mar, 2024

CV-VAE：潜在生成视频模型的兼容视频变分自编码器

我们提出了一个名为CV-VAE的视频VAE方法，通过与给定图像VAE进行潜在空间的兼容性来实现训练视频模型，并展示了其在视频生成和压缩方面的有效性。

May, 2024

马尔可夫随机场多模态变分自编码器

本研究解决了现有多模态变分自编码器在建模复杂数据时未能有效捕捉模态间复杂动态的问题。通过将马尔可夫随机场纳入先验和后验分布，本论文提出了一种新颖的多模态变分自编码器，以更好地捕捉模态间的相互作用。实验结果表明，该模型在标准PolyMNIST数据集上表现出竞争力，并在处理复杂模态依赖关系时优于已有模型。

Aug, 2024