多模导向网络用于缺失模态推断
本文针对多模态学习的完备性假设提出挑战,提出一种基于特征投影模块的解决方案,在推理过程中实现对看不见模态的泛化。同时使用伪监督来指示模态的预测可靠性。实验结果表明,该方法对于各种任务和模态具有很好的效果。
Jun, 2023
本文针对多模态动作识别及其中一些模态不可用情况提出一套良好的实践方法,包括数据增强、基于 Transformer 的融合方法以及一个名为 ActionMAE 的模块化网络。通过采用这些方法,建立一个不仅在多模态动作识别中有效,同时对于模态缺失情况也具有鲁棒性的模型,并在多个基准测试中实现了最新技术,并在模态缺失场景中保持有竞争力的表现。
Nov, 2022
基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练,但并不总是能在开发场景中获得所有的模态,这给基于不完整模态的推断带来了挑战。为了解决这个问题,本文提出了一个一阶段模态蒸馏框架,通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比,这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络,以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后,我们介绍了模态融合任务的交叉翻译网络,以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在 RGB-D 分类和分割任务上的大量实验证明,提出的多模态继承框架可以克服各种场景中不完整模态输入的问题,并实现最先进的性能。
Sep, 2023
通过用生成式变压器填补缺失的视觉数据,我们提出了一个简单但有效的多模态学习框架 GTI-MM,以增强数据效率和模型的鲁棒性,尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析,包括模型的训练,结果显示合成图像有助于训练数据的效率,并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外,我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。
Feb, 2024
提出了一种简单而有效的框架 TRML,即利用多模态基础模型进行鲁棒多模态学习,通过生成虚拟模态替代丢失模态,并对生成和丢失模态之间的语义空间进行对齐,从而捕捉缺失模态的语义。在完整模态的情况下,我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。
Jan, 2024
本文提出了一种新的不完全多模态数据整合方法,利用变压器和生成对抗网络,利用辅助模态数据来提高单模态模型的性能,并将其应用于预测阿尔茨海默病的认知退化和疾病结果。
May, 2023
该论文提出了一种新的统一的多模式图像综合方法,包括通过生成敌对网络从任意可用模式的组合中合成丢失的模态,并使用共性和差异敏感编码器及动态特征统一模块来提高图像合成质量和适应性,实验结果表明该方法在处理多种综合任务时具有优越的性能。
Apr, 2023
提出了一种具有模态重建和模型个性化的健壮的通用模型,能够在训练和测试阶段有效地处理缺失的模态,通过多模态掩码自编码器重构缺失的模态和掩码补丁,利用创新的分布近似机制充分利用完整和不完整的数据,提出了基于 CLIP 的超网络来个性化模型参数,能够适应不同的缺失模态场景,并在两个脑肿瘤分割基准上得到广泛验证,在不同缺失比例的全阶段缺失模态设置下始终超过先前最先进的方法,代码将可用。
Jun, 2024
本文提出一种使用 prompt learning 的多模态学习框架,从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts,可插入到多模态 transformers 中处理不同的模态缺失情况,同时只需要少于 1% 的可学习参数。实验结果表明,该框架有效地提高了在各种模态缺失情况下的性能。
Mar, 2023
提出了一种新颖的知识传递网络来在不同的感知模式之间进行翻译以重构缺失的音频模式,并且采用了跨模态注意机制以保留重构和观察到的模态的最大信息,用于情感预测。通过对三个公开数据集进行大量实验证明,相较于基线方法实现了显著的改进,并在完全多模态监督方面取得了与之前方法相当的结果。
Dec, 2023