交替单模态适应的多模态表示学习
通过利用多个信息源(如语言、视频和音频),多模态情感分析(MSA)证明了其有效性,但不同模态间可能存在情感不相关和冲突的信息,从而限制了进一步提高性能。为了缓解这个问题,我们提出了自适应语言引导的多模态 Transformer(ALMT),它通过自适应的超模态学习(AHL)模块,在不同尺度上利用语言特征的指导从视觉和音频特征中学习抑制不相关和冲突的表示。通过获取超模态表示,该模型可以通过多模态融合获得互补和联合表示,以实现有效的 MSA。在实践中,ALMT 在几个知名数据集(如 MOSI,MOSEI 和 CH-SIMS)上实现了最先进的性能,并通过大量割舍实验证明了我们的抑制不相关和冲突的机制的有效性和必要性。
Oct, 2023
本文介绍了一种增强的 MAML 框架,该框架能够在多模态任务分布中识别任务模式并通过梯度更新快速适应,从而更有效地进行元学习,同时在回归、图像分类和强化学习等多种领域中进行了实验验证。
Oct, 2019
本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架,用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤内嵌噪声和捕获跨模态动态。此外,我们设计了两种对比学习任务,实例和基于情感的对比学习,以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明,我们的方法超过了现有的最先进方法。
Oct, 2022
本文探索了应用对比学习改进模态表征的方法,提出了三阶段的多视角对比学习框架,通过监督和自监督对比学习来改进单模态和融合的多模态表征,并成功提高了多模态情感分析任务的效果。
Oct, 2022
通过冻结单模态微调模型的权重、添加额外的可训练分解矩阵以及进行多模态联合训练,我们的方法 MMLoRA 增强了模态之间的适应性并提升了整体性能。
Oct, 2023
本文提出了一种自适应多模态学习框架 AdaMML,它使用多模态策略网络在视频识别过程中根据输入选择最佳模态,有效地提高准确性和效率,实验结果表明该方法相比传统基线方法能减少 35%-55% 的计算量,且在准确率方面也取得了一致的提升。
May, 2021
本文提出了一种基于多模态任务分布的 adaptative meta-learning 算法,并采用该算法来识别各种从多模态分布中采样的任务,以更快速地实现适应。结果表明该算法对于计算机视觉、强化学习和回归等多种任务领域都具有普适性。
Dec, 2018
通过结合融合目标和单模态蒸馏的方法,提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题,为实现真实世界的机器人应用奠定了基础。
Jun, 2021
通过学习多种模态(如音频和视频)可以利用互补信息,提高模型性能,本文提出了一种多损失目标和改进的平衡过程,通过动态调整不同模态的学习速度来实现更好的结果。
May, 2024