多模式分类网络训练的困难之处是什么？

CVPRMay, 2019

多模式分类网络训练的困难之处是什么？

What Makes Training Multi-Modal Classification Networks Hard?

Weiyao Wang, Du Tran, Matt Feiszli

TL;DR通过 Gradient Blending 技术实现不同多模态训练的优化，避免了其过度拟合的问题，从而取得多项基准测试任务的最新成果。

Abstract

Consider end-to-end training of a multi-modal vs. a single-modal network on a task with multiple input modalities: the multi-modal network receives more information, so it should match or outperform its single-mo

multi-modal network single-modal network overfitting gradient blending state-of-the-art accuracy

发现论文，激发创造

多模态深度学习中的模态组合学习

提出了基于深度神经网络的多模态学习方法，采用乘法结合不同来源的模态信息以提高性能，并通过过滤噪声和处理冲突来采取联合方法，扩展将不仅结合单一来源模态，而是一组混合来源模态，以更好地捕获跨模态信号相关性，取得了在不同领域的三个多模态分类任务中实验结果的改进。

May, 2018

多模态学习为何比单一模态学习更好（可证明）

本文证明了使用多种模态进行深度学习相比于使用单一模态，采用常见的多模态融合框架可以更好地学习，并且能够获得较小的总体风险，这是首个从泛化角度捕捉到真实多模态应用中重要的定性现象的理论论证。

Jun, 2021

通过即时梯度调控实现平衡多模态学习

本文研究了多模式学习中可能存在的优化失衡问题，提出了一种新的梯度调节方法，通过动态监测不同输入模态的贡献来自适应地优化每个模态，以解决某些场景下存在的支配模态问题，并且在不同的多模式任务中能够获得显著的改进效果。

Mar, 2022

多损失梯度调节改进多模态学习

通过学习多种模态（如音频和视频）可以利用互补信息，提高模型性能，本文提出了一种多损失目标和改进的平衡过程，通过动态调整不同模态的学习速度来实现更好的结果。

May, 2024

多模导向网络用于缺失模态推断

提出了一种通过引导网络在训练阶段促进知识共享，利用多模式表示训练用于推理的更好的单模式模型，以解决存在缺失模式的多模态模型应用受限和过高计算成本的问题。通过真实生活中的暴力检测实验证明，所提出的框架训练的单模式模型明显优于传统训练的模型，并且推理成本相同。

Sep, 2023

多模式学习理论

研究多模态学习算法的泛化性质，发现与单一模态学习相比，多模态学习可以达到更好的泛化界限，最多可以提高到 O (√n) 倍，其中 n 代表样本大小。

Sep, 2023

基于门控信息融合网络的鲁棒性深度多模态学习

本文提出了一种在存在不完善模态的情况下设计稳健的深度多模态学习体系结构的方法 - 通过使用深度融合架构进行目标检测，并使用带有门控信息融合网络调节贡献权重进行构建，以实现具有抗干扰性的性能表现提高，对于 KITTI 数据集的单发探测器（SSD），本文通过数据增强方案和提出的融合网络取得了显著的性能提升。

Jul, 2018

自适应梯度调制提升多模态模型性能

通过引入自适应梯度调制方法，本文提出了一种能够提升多模态模型性能的方法，并通过实验证明其优于现有的调制方法。此外，引入一种新的度量指标用于衡量模态竞争的强度，并系统研究了调制机制鼓励模型依赖更具信息量的模态。

Aug, 2023

视频动作分类的互模态学习

本研究探讨了将集成学习应用于单个模型的各种方法，通过适当的初始化和相互学习等策略增强单模态模型，达到了在 Something-Something-v2 基准测试中的最优结果。

Nov, 2020

FULLER: 统一的多模态多任务三维感知通过多级梯度校准

多模态融合与多任务学习在三维自动驾驶场景中变得流行，然而，将现有框架扩展到多模态多任务学习领域仍然是无效的甚至有害的，由于恶名昭彰的模态偏差和任务冲突。本研究提出了一个新颖而简单的多层梯度校准学习框架，通过任务和模态之间的优化在任务和模态之间进行优化。实验证明了该方法的有效性。

Jul, 2023