借宝于邻:针对多模态学习的上下文学习在缺失模态和数据稀缺情况下的应用
提出了一种简单而有效的框架 TRML,即利用多模态基础模型进行鲁棒多模态学习,通过生成虚拟模态替代丢失模态,并对生成和丢失模态之间的语义空间进行对齐,从而捕捉缺失模态的语义。在完整模态的情况下,我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。
Jan, 2024
本文研究多模态学习中缺失模态的问题,提出一种基于贝叶斯元学习的方法 SMIL,可同时实现训练及测试数据中缺失模态的灵活性及训练数据大量缺失模态时的高效性,实验证明 SMIL 方法在 MM-IMDb、CMU-MOSI 和 avMNIST 三个数据集上的性能均优于现有方法和生成基线,代码可从链接获取。
Mar, 2021
提出了一种具有模态重建和模型个性化的健壮的通用模型,能够在训练和测试阶段有效地处理缺失的模态,通过多模态掩码自编码器重构缺失的模态和掩码补丁,利用创新的分布近似机制充分利用完整和不完整的数据,提出了基于 CLIP 的超网络来个性化模型参数,能够适应不同的缺失模态场景,并在两个脑肿瘤分割基准上得到广泛验证,在不同缺失比例的全阶段缺失模态设置下始终超过先前最先进的方法,代码将可用。
Jun, 2024
本文提出一种使用 prompt learning 的多模态学习框架,从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts,可插入到多模态 transformers 中处理不同的模态缺失情况,同时只需要少于 1% 的可学习参数。实验结果表明,该框架有效地提高了在各种模态缺失情况下的性能。
Mar, 2023
本文提出了一种新颖的不完整多模态学习模型,结合双向 LSTM 注意力和掩蔽自注意机制来收集多模态信号,利用重构和对比损失来促进预训练中的融合,能在处理数据不完整输入时达到当前最佳性能水平。
Apr, 2023
提出了一种通过引导网络在训练阶段促进知识共享,利用多模式表示训练用于推理的更好的单模式模型,以解决存在缺失模式的多模态模型应用受限和过高计算成本的问题。通过真实生活中的暴力检测实验证明,所提出的框架训练的单模式模型明显优于传统训练的模型,并且推理成本相同。
Sep, 2023
通过使用多模态数据,我们的研究深入评估了文本信息对无监督选择多模态上下文示例的影响,揭示了检索器性能对所使用模态的显著敏感性,我们还介绍了一种新颖的有监督多模态大语言模型检索器(MSIER),通过使用神经网络选择样例以提高多模态上下文学习效率,并通过在三个不同任务上进行广泛测试来验证这种方法的有效性,我们还调查了模态对我们的有监督检索方法的训练的影响,并指出了诸多成功因素,这一探索为未来的进一步发展铺平了道路,突显了通过战略性使用多模态数据在多模态大语言模型中实现精细的上下文学习的潜力。
Apr, 2024
本研究旨在深入探究 Transformer 模型在缺失模态数据的情况下的行为,并发现最优融合策略是数据集相关的,因此提出一种自动搜索输入数据最优融合策略以提高 Transformer 模型鲁棒性的方法。实验证实了该方法在三个基准数据集上具有优异性能。
Apr, 2022