用于组合表示学习的多模态生成模型

Dec, 2019

用于组合表示学习的多模态生成模型

Multimodal Generative Models for Compositional Representation Learning

Mike Wu, Noah Goodman

TL;DR该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明，对于图像、标签和文本数据，这些模型在很多领域中达到了最优结果，并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后，在配合口语的任务中，该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。

Abstract

As deep neural networks become more adept at traditional tasks, many of the most exciting new challenges concern multimodality---observations that combine diverse types, such as image and text. In this paper, we introduce a family of multimodal →

multimodality deep generative models variational autoencoder gan image representation

发现论文，激发创造

多模式深度生成模型的变分混合专家自编码器

本文阐述了成功学习多模态生成模型的四个判定标准，提出了一种混合专家多模态变分自编码器（MMVAE）来学习不同模态的生成模型，并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力，从质量和数量两方面进行了定性和定量。

Nov, 2019

可扩展的弱监督学习的多模态生成模型

本文介绍了一种基于变分自编码器的多模态学习方法，能够有效地用少量参数处理多模态输入数据的推断问题，提出的方法在一些数据集上表现出与最先进技术相匹配的性能。

Feb, 2018

深度生成模型的联合多模态学习

本文介绍了一种基于深度生成模型的多模态交换方法，提出了条件独立的联合表示的概念，实现了对不同模态之间的高级概念进行双向交换，并通过对比实验表明该模型的有效性。

Nov, 2016

多模态 VAEs 中的统一多样性：改进的表示学习

用于多模态数据的变分自编码器在数据分析中具有许多任务的潜力，如表示学习、条件生成和插补。我们通过用软约束替换这些硬约束，提出了一种新的专家混合先验方法，软指导每个模态的潜编码向共享的聚合后验靠近，从而得到一个更好的潜编码表示，并提高了对缺失数据模态的填充能力。在多个基准数据集和具有挑战性的现实神经科学数据集上进行了广泛实验证明，与现有方法相比，学到的潜编码表示和缺失数据模态的插补有所改进。

Mar, 2024

多模态变分自编码器的局限性

研究发现，多模态变分自编码器存在上界限制，导致其生成质量不如完全无监督的单模态自编码器，且当前的算法无法满足所有复杂数据集上的期望表现，限制了其在弱监督数据建模应用中的实际效果。

Oct, 2021

使用置换不变编码器和更紧的变分界限学习多模态生成模型

通过多模态数据，在机器学习研究中设计深度潜变量模型一直是一个长期的主题。本文考虑了一种可以严密下界数据对数似然的变分约束，同时发展了更灵活的聚合方案，通过组合不同模态的编码特征与置换不变神经网络。数值实验表明了多模态变分约束和各种聚合方案之间的权衡。我们展示了当我们想近似已鉴别模型中观察到的模态和潜变量的真实联合分布时，更紧密的变分约束和更灵活的聚合模型可能会带来益处。

Sep, 2023

推广多模态变分方法到集合

提出一种基于集合的多模态 VAE 方法，可以直接对联合模态后验分布进行建模，从而在处理缺失模态等方面具有优异性能，适用于无序跨模态生成任务。

Dec, 2022

多模态潜在扩散

介绍了一种基于确定性自编码器和遮蔽扩散模型的多模态生成模型，结果优于现有竞争对手的生成质量和一致性。

Jun, 2023

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

使用多模态变分自编码器和语义概念进行广义零样本学习

我们提出了一个多模态变分自编码器 (M-VAE)，能够在学习图像特征和语义空间之间的共享潜在空间上，通过使用多模态损失来拟合多模态数据。该方法可用于预测新样本，且实验结果表明在广义零样本学习方面，我们提出的模型优于当前最先进的方法。

Jun, 2021