利用单模型教师提升多模态学习

Jun, 2021

Improving Multi-Modal Learning with Uni-Modal Teachers

Chenzhuang Du, Tingle Li, Yichen Liu, Zixin Wen, Tianyu Hua...

TL;DR通过结合融合目标和单模态蒸馏的方法，提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题，为实现真实世界的机器人应用奠定了基础。

Abstract

Learning multi-modal representations is an essential step towards real-world robotic applications, and various multi-modal fusion models have been developed for this purpose. However, we observe that existing models, whose objectives are mostly based on joint training, often suffer fro

multi-modal learning modality failure uni-modal distillation fusion model robotic applications

发现论文，激发创造

监督多模式学习中的单模式特征学习

通过提出一种针对多模态学习的目标后融合方法并使用 Uni-Modal Ensemble (UME) 和 Uni-Modal Teacher (UMT) 的策略来得出 Uni-Modal 特征和 paired 特征的分布，可以在各种多模态数据集上实现与其他复杂的后融合或中间融合方法可比的结果。我们证明，缺乏在每个模态上进行 Uni-modal feature learning 的现象将确实损害模型的泛化能力。

May, 2023

多损失梯度调节改进多模态学习

通过学习多种模态（如音频和视频）可以利用互补信息，提高模型性能，本文提出了一种多损失目标和改进的平衡过程，通过动态调整不同模态的学习速度来实现更好的结果。

May, 2024

学习未见过的模态交互

本文针对多模态学习的完备性假设提出挑战，提出一种基于特征投影模块的解决方案，在推理过程中实现对看不见模态的泛化。同时使用伪监督来指示模态的预测可靠性。实验结果表明，该方法对于各种任务和模态具有很好的效果。

Jun, 2023

多模态学习为何比单一模态学习更好（可证明）

本文证明了使用多种模态进行深度学习相比于使用单一模态，采用常见的多模态融合框架可以更好地学习，并且能够获得较小的总体风险，这是首个从泛化角度捕捉到真实多模态应用中重要的定性现象的理论论证。

Jun, 2021

多模式教师教授的学生为优秀的动作识别者

本文致力于通过多模态蒸馏的方式，提高仅以 RGB 帧为输入的多模态方法在行动识别方面的性能。实验表明，该方法在标准 / 组合行动识别中均明显优于基线 RGB 模型以及联合训练多种模态的方法。

Oct, 2022

一阶段模态蒸馏用于不完整多模态学习

基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练，但并不总是能在开发场景中获得所有的模态，这给基于不完整模态的推断带来了挑战。为了解决这个问题，本文提出了一个一阶段模态蒸馏框架，通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比，这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络，以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后，我们介绍了模态融合任务的交叉翻译网络，以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在 RGB-D 分类和分割任务上的大量实验证明，提出的多模态继承框架可以克服各种场景中不完整模态输入的问题，并实现最先进的性能。

Sep, 2023

通过动态融合方法学习多模态词表示

本研究提出了三种新颖的动态融合方法，旨在根据不同类型的词动态地融合来自不同模式的语义表示，并在单模型和多模型情况下取得了优于现有方法的成果。

Jan, 2018

多模态智能：表示学习、信息融合与应用

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019

通过即时梯度调控实现平衡多模态学习

本文研究了多模式学习中可能存在的优化失衡问题，提出了一种新的梯度调节方法，通过动态监测不同输入模态的贡献来自适应地优化每个模态，以解决某些场景下存在的支配模态问题，并且在不同的多模式任务中能够获得显著的改进效果。

Mar, 2022

基于多视角对比学习提升情感分析中形式表征

本文探索了应用对比学习改进模态表征的方法，提出了三阶段的多视角对比学习框架，通过监督和自监督对比学习来改进单模态和融合的多模态表征，并成功提高了多模态情感分析任务的效果。

Oct, 2022