通过学习多种模态(如音频和视频)可以利用互补信息,提高模型性能,本文提出了一种多损失目标和改进的平衡过程,通过动态调整不同模态的学习速度来实现更好的结果。
May, 2024
本文提出了一种新的多模态对比方法,以无单模预测的弱监督下探索更可靠的多模态表示,实验证明该方法优于当前最先进的多模态方法,适用于图像 - 文本分类。
May, 2023
本文研究了多模式学习中可能存在的优化失衡问题,提出了一种新的梯度调节方法,通过动态监测不同输入模态的贡献来自适应地优化每个模态,以解决某些场景下存在的支配模态问题,并且在不同的多模式任务中能够获得显著的改进效果。
Mar, 2022
我们介绍了一种新的多模态学习损失范式,根据模态的贡献将实例分组,以防止过拟合引起的低效学习,并高效优化多模态模型,实验证明我们的损失提高了最近模型的性能。
Aug, 2023
通过结合融合目标和单模态蒸馏的方法,提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题,为实现真实世界的机器人应用奠定了基础。
Jun, 2021
通过冻结单模态微调模型的权重、添加额外的可训练分解矩阵以及进行多模态联合训练,我们的方法 MMLoRA 增强了模态之间的适应性并提升了整体性能。
Oct, 2023
本文针对多模态学习的完备性假设提出挑战,提出一种基于特征投影模块的解决方案,在推理过程中实现对看不见模态的泛化。同时使用伪监督来指示模态的预测可靠性。实验结果表明,该方法对于各种任务和模态具有很好的效果。
Jun, 2023
多模态学习中处理缺失模态的信息论方法,通过引入 Uni-Modal Ensemble with Missing Modality Adaptation 技术,实现了对非缺失模态的特征提取和融合过程中的噪声鲁棒性增强,适用于广泛的模态并可无缝集成大规模预训练编码器,展示了在音频 - 视觉数据集和视觉 - 语言数据集上的有效性。
MLA 是通过交替的单模态适应过程改变传统联合多模态学习过程,减少模态之间的干扰,并通过共享头部实现跨模态交互,从而优化性能,在推理阶段利用基于不确定性的模型融合机制集成多模态信息。经过在五个不同数据集上的广泛实验,证明了 MLA 相对于竞争方法的优越性。
Nov, 2023
通过提出新的正则化项,促进多模态模型在决策过程中有效利用所有模态的信息,以缓解单模态主导性问题并提高多模态机器学习系统的性能。
Apr, 2024