多模态潜在扩散
本文阐述了成功学习多模态生成模型的四个判定标准,提出了一种混合专家多模态变分自编码器(MMVAE)来学习不同模态的生成模型,并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力,从质量和数量两方面进行了定性和定量。
Nov, 2019
用于多模态数据的变分自编码器在数据分析中具有许多任务的潜力,如表示学习、条件生成和插补。我们通过用软约束替换这些硬约束,提出了一种新的专家混合先验方法,软指导每个模态的潜编码向共享的聚合后验靠近,从而得到一个更好的潜编码表示,并提高了对缺失数据模态的填充能力。在多个基准数据集和具有挑战性的现实神经科学数据集上进行了广泛实验证明,与现有方法相比,学到的潜编码表示和缺失数据模态的插补有所改进。
Mar, 2024
用于多模态数据的生成模型可用于识别与观察数据异质性重要决定因素相关的潜在因素。然而,存在一些变量是特定于单个模态的私有变量,而共享变量对解释多模态数据的变异性很重要。本研究探讨了多模态变分自编码器在可靠地实现这种解缠的能力方面,针对一种挑战性的问题设置,其中模态特定变异占主导地位,并提出了一种修改方法,使其对模态特定变异更加鲁棒。我们的发现得到了合成数据和多种真实世界多组学数据集的实验证实支持。
Mar, 2024
本文介绍了一种基于变分自编码器的多模态学习方法,能够有效地用少量参数处理多模态输入数据的推断问题,提出的方法在一些数据集上表现出与最先进技术相匹配的性能。
Feb, 2018
本文介绍了一种基于深度生成模型的多模态交换方法,提出了条件独立的联合表示的概念,实现了对不同模态之间的高级概念进行双向交换,并通过对比实验表明该模型的有效性。
Nov, 2016
该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明,对于图像、标签和文本数据,这些模型在很多领域中达到了最优结果,并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后,在配合口语的任务中,该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。
Dec, 2019
通过多模态数据,在机器学习研究中设计深度潜变量模型一直是一个长期的主题。本文考虑了一种可以严密下界数据对数似然的变分约束,同时发展了更灵活的聚合方案,通过组合不同模态的编码特征与置换不变神经网络。数值实验表明了多模态变分约束和各种聚合方案之间的权衡。我们展示了当我们想近似已鉴别模型中观察到的模态和潜变量的真实联合分布时,更紧密的变分约束和更灵活的聚合模型可能会带来益处。
Sep, 2023
本研究提出一种新的方法,通过使用基于分数的模型(SBMs)共同建模单模 VAEs 的潜在空间,以增强多模态 VAEs 的生成性能。该模型利用 SBM 学习潜在变量之间的相关性来强制执行多模态一致性,从而将单模 VAEs 的优异生成质量与不同模态的协同集成相结合。
May, 2023
研究发现,多模态变分自编码器存在上界限制,导致其生成质量不如完全无监督的单模态自编码器,且当前的算法无法满足所有复杂数据集上的期望表现,限制了其在弱监督数据建模应用中的实际效果。
Oct, 2021