多模态学习中的单模态偏差理论

Dec, 2023

A Theory of Unimodal Bias in Multimodal Learning

Yedi Zhang, Peter E. Latham, Andrew Saxe

TL;DR使用多输入流同时训练多模态神经网络在直觉上有优势，但在实践中具有挑战性。本文通过深度多模态线性网络的理论研究，揭示了联合训练中的单模态偏差问题，包括它与网络结构、数据统计和初始化的关系，以及它可能导致的泛化缺陷和永久性单模态偏差。此外，研究结果还表明，首先学习的模态未必对输出起更大的贡献。

Abstract

Using multiple input streams simultaneously in training multimodal neural networks is intuitively advantageous, but practically challenging. A key challenge is unimodal bias, where a network overly relies on one modality and ignores others during joint training. While →

multimodal neural networks unimodal bias data statistics fusion architectures permanent unimodal bias

发现论文，激发创造

多模式学习理论

研究多模态学习算法的泛化性质，发现与单一模态学习相比，多模态学习可以达到更好的泛化界限，最多可以提高到 O (√n) 倍，其中 n 代表样本大小。

Sep, 2023

多模态表示学习中早期融合的好处

该篇论文通过创建卷积 LSTM 网络结构，研究了多模态表示学习中视听融合的早期处理，结果表明，在初始 C-LSTM 层中立即融合音频和视觉输入可以提高网络的性能，使其更能够抵抗白噪声的干扰。

Nov, 2020

超越单一学习：整合多种认知方式对终身学习的重要性

多模态持续学习中，多个视角和多模态的互补信息使模型学习到更准确、更稳健的表示，显著减轻遗忘，并通过利用各个模态之间数据点的关系结构相似性，提出了一种整合和对齐不同模态信息的方法。

May, 2024

监督多模式学习中的单模式特征学习

通过提出一种针对多模态学习的目标后融合方法并使用 Uni-Modal Ensemble (UME) 和 Uni-Modal Teacher (UMT) 的策略来得出 Uni-Modal 特征和 paired 特征的分布，可以在各种多模态数据集上实现与其他复杂的后融合或中间融合方法可比的结果。我们证明，缺乏在每个模态上进行 Uni-modal feature learning 的现象将确实损害模型的泛化能力。

May, 2023

多模态 Transformer 改进单模态推理

通过多分支架构和多模态训练，本文提出一种改进单模态模型性能的方法，通过多任务目标，强大的多模态分支将其知识传递给较弱的单模态分支，从而提高了单模态模型的性能。该方法在手势识别、情感识别和情感分析任务上优于传统训练的单模态模型，并观察到优化单模态分支可以改进多模态分支的性能。

Nov, 2023

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024

多模态学习为何比单一模态学习更好（可证明）

本文证明了使用多种模态进行深度学习相比于使用单一模态，采用常见的多模态融合框架可以更好地学习，并且能够获得较小的总体风险，这是首个从泛化角度捕捉到真实多模态应用中重要的定性现象的理论论证。

Jun, 2021

多模式分类网络训练的困难之处是什么？

通过 Gradient Blending 技术实现不同多模态训练的优化，避免了其过度拟合的问题，从而取得多项基准测试任务的最新成果。

May, 2019

利用单模型教师提升多模态学习

通过结合融合目标和单模态蒸馏的方法，提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题，为实现真实世界的机器人应用奠定了基础。

Jun, 2021

多模式学习的计算优势

人类感知本身具有多模态特性。同样地，当机器对经验世界进行解读时，它们的学习过程也应该是多模态的。最近在实证多模态学习方面取得的显著成功突显了理解这一范式的重要性。然而，多模态学习的坚实的理论基础长期以来一直困扰着该领域。本研究基于 Lu (2023) 近期的研究结果，展示了多模态学习相对于单模态学习在样本复杂性上的优势，但还存在一个基本问题：多模态学习是否也在计算上具备优势？本文开始对多模态学习的计算益处进行研究。我们证明，在特定条件下，多模态学习在计算方面能够以指数级超越单模态学习。具体地，我们提出了一个对单模态学习而言是 NP-hard 的学习任务，但可以由多模态算法在多项式时间内解决。我们的构建基于对两个半空间交点问题的新颖修改。

Sep, 2023