本文阐述了成功学习多模态生成模型的四个判定标准,提出了一种混合专家多模态变分自编码器(MMVAE)来学习不同模态的生成模型,并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力,从质量和数量两方面进行了定性和定量。
Nov, 2019
该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器(UniM$^2$AE)模型,通过将图像与激光雷达点云的特征融合,实现了对多模态数据的高效处理,提高了三维物体检测和鸟瞰图分割的效果。
Aug, 2023
本文介绍了一种基于变分自编码器的多模态学习方法,能够有效地用少量参数处理多模态输入数据的推断问题,提出的方法在一些数据集上表现出与最先进技术相匹配的性能。
Feb, 2018
介绍了一种基于确定性自编码器和遮蔽扩散模型的多模态生成模型,结果优于现有竞争对手的生成质量和一致性。
Jun, 2023
本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE),能在不引入偏好于数据增强的对比学习目标的情况下,学习出适用于下游任务的可传递表示,并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练,具有可扩展性和灵活性。
May, 2022
计算机视觉和机器学习中存在越来越多的现实世界问题,需要考虑到世界的多个解释层次(模态或视角),并学习它们的相互关系。
Feb, 2024
提出了一种基于 M$^3$AE 的自监督学习模型,通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型,并在三个任务上实现了最先进水平的结果。
Sep, 2022
通过多模态数据,在机器学习研究中设计深度潜变量模型一直是一个长期的主题。本文考虑了一种可以严密下界数据对数似然的变分约束,同时发展了更灵活的聚合方案,通过组合不同模态的编码特征与置换不变神经网络。数值实验表明了多模态变分约束和各种聚合方案之间的权衡。我们展示了当我们想近似已鉴别模型中观察到的模态和潜变量的真实联合分布时,更紧密的变分约束和更灵活的聚合模型可能会带来益处。
Sep, 2023
提出了一种称为 MultiMAE 的预训练策略,通过掩蔽解决了网络输入多样性和预测任务多样性的问题,从而实现可靠的跨模态与任务预测编码和转移学习。
Apr, 2022
本文介绍了一种基于深度生成模型的多模态交换方法,提出了条件独立的联合表示的概念,实现了对不同模态之间的高级概念进行双向交换,并通过对比实验表明该模型的有效性。
Nov, 2016