通过参数高效适应处理缺失模态的鲁棒多模态学习
多模态学习中处理缺失模态的信息论方法,通过引入 Uni-Modal Ensemble with Missing Modality Adaptation 技术,实现了对非缺失模态的特征提取和融合过程中的噪声鲁棒性增强,适用于广泛的模态并可无缝集成大规模预训练编码器,展示了在音频 - 视觉数据集和视觉 - 语言数据集上的有效性。
Oct, 2023
提出了一种简单而有效的框架 TRML,即利用多模态基础模型进行鲁棒多模态学习,通过生成虚拟模态替代丢失模态,并对生成和丢失模态之间的语义空间进行对齐,从而捕捉缺失模态的语义。在完整模态的情况下,我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。
Jan, 2024
提出一种简单且高效的多模态融合机制:线性融合(Linear Fusion),通过半监督学习的方式提高了多模态语义分割的性能,并使模型对现实世界中缺失模态的情况更加健壮。
Apr, 2023
本文提出了一个多模态鲁棒性框架,以系统分析常见的多模态表示学习方法,并针对其中的鲁棒性缺陷提出了两种干预技术,能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时,通过在可能存在的额外模态上更好地利用这些干预技术,本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。
Apr, 2023
提出了一种具有模态重建和模型个性化的健壮的通用模型,能够在训练和测试阶段有效地处理缺失的模态,通过多模态掩码自编码器重构缺失的模态和掩码补丁,利用创新的分布近似机制充分利用完整和不完整的数据,提出了基于 CLIP 的超网络来个性化模型参数,能够适应不同的缺失模态场景,并在两个脑肿瘤分割基准上得到广泛验证,在不同缺失比例的全阶段缺失模态设置下始终超过先前最先进的方法,代码将可用。
Jun, 2024
本研究旨在深入探究 Transformer 模型在缺失模态数据的情况下的行为,并发现最优融合策略是数据集相关的,因此提出一种自动搜索输入数据最优融合策略以提高 Transformer 模型鲁棒性的方法。实验证实了该方法在三个基准数据集上具有优异性能。
Apr, 2022
本文针对多模态动作识别及其中一些模态不可用情况提出一套良好的实践方法,包括数据增强、基于 Transformer 的融合方法以及一个名为 ActionMAE 的模块化网络。通过采用这些方法,建立一个不仅在多模态动作识别中有效,同时对于模态缺失情况也具有鲁棒性的模型,并在多个基准测试中实现了最新技术,并在模态缺失场景中保持有竞争力的表现。
Nov, 2022
提出了一种通过引导网络在训练阶段促进知识共享,利用多模式表示训练用于推理的更好的单模式模型,以解决存在缺失模式的多模态模型应用受限和过高计算成本的问题。通过真实生活中的暴力检测实验证明,所提出的框架训练的单模式模型明显优于传统训练的模型,并且推理成本相同。
Sep, 2023
本文研究多模态学习中缺失模态的问题,提出一种基于贝叶斯元学习的方法 SMIL,可同时实现训练及测试数据中缺失模态的灵活性及训练数据大量缺失模态时的高效性,实验证明 SMIL 方法在 MM-IMDb、CMU-MOSI 和 avMNIST 三个数据集上的性能均优于现有方法和生成基线,代码可从链接获取。
Mar, 2021