多视图自编码器教程

Mar, 2024

A tutorial on multi-view autoencoders using the multi-view-AE library

Ana Lawry Aguila, Andre Altmann

TL;DR本篇论文针对多模态建模提出了一个统一的数学框架，同时扩展了 exttt {multi-view-AE} 库的文档和功能，通过基准实验评估实现的性能，并作为该领域的教育资源，旨在建立多模态建模的一致基础。

Abstract

There has been a growing interest in recent years in modelling multiple modalities (or views) of data to for example, understand the relationship between modalities or to generate missing data. multi-view autoencoders

multi-view autoencoders modelling framework python implementations benchmarking experiments

发现论文，激发创造

多模式深度生成模型的变分混合专家自编码器

本文阐述了成功学习多模态生成模型的四个判定标准，提出了一种混合专家多模态变分自编码器（MMVAE）来学习不同模态的生成模型，并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力，从质量和数量两方面进行了定性和定量。

Nov, 2019

UniM$^2$AE：自主驾驶中统一的三维感知的多模态掩码自编码器

该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器（UniM$^2$AE）模型，通过将图像与激光雷达点云的特征融合，实现了对多模态数据的高效处理，提高了三维物体检测和鸟瞰图分割的效果。

Aug, 2023

可扩展的弱监督学习的多模态生成模型

本文介绍了一种基于变分自编码器的多模态学习方法，能够有效地用少量参数处理多模态输入数据的推断问题，提出的方法在一些数据集上表现出与最先进技术相匹配的性能。

Feb, 2018

多模态潜在扩散

介绍了一种基于确定性自编码器和遮蔽扩散模型的多模态生成模型，结果优于现有竞争对手的生成质量和一致性。

Jun, 2023

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022

多重随机掩蔽自编码器集成的鲁棒多模态半监督学习

计算机视觉和机器学习中存在越来越多的现实世界问题，需要考虑到世界的多个解释层次（模态或视角），并学习它们的相互关系。

Feb, 2024

医学视觉与语言预训练的多模态掩码自编码器

提出了一种基于 M$^3$AE 的自监督学习模型，通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型，并在三个任务上实现了最先进水平的结果。

Sep, 2022

使用置换不变编码器和更紧的变分界限学习多模态生成模型

通过多模态数据，在机器学习研究中设计深度潜变量模型一直是一个长期的主题。本文考虑了一种可以严密下界数据对数似然的变分约束，同时发展了更灵活的聚合方案，通过组合不同模态的编码特征与置换不变神经网络。数值实验表明了多模态变分约束和各种聚合方案之间的权衡。我们展示了当我们想近似已鉴别模型中观察到的模态和潜变量的真实联合分布时，更紧密的变分约束和更灵活的聚合模型可能会带来益处。

Sep, 2023

MultiMAE: 多模态多任务掩蔽自编码器

提出了一种称为 MultiMAE 的预训练策略，通过掩蔽解决了网络输入多样性和预测任务多样性的问题，从而实现可靠的跨模态与任务预测编码和转移学习。

Apr, 2022

深度生成模型的联合多模态学习

本文介绍了一种基于深度生成模型的多模态交换方法，提出了条件独立的联合表示的概念，实现了对不同模态之间的高级概念进行双向交换，并通过对比实验表明该模型的有效性。

Nov, 2016