多模态学习的深度度量损失

Aug, 2023

Deep Metric Loss for Multimodal Learning

Sehwan Moon, Hyunju Lee

TL;DR我们介绍了一种新的多模态学习损失范式，根据模态的贡献将实例分组，以防止过拟合引起的低效学习，并高效优化多模态模型，实验证明我们的损失提高了最近模型的性能。

Abstract

multimodal learning often outperforms its unimodal counterparts by exploiting unimodal contributions and cross-modal interactions. However, focusing only on integrating multimodal features into a unified comprehensive representation overlooks the →

multimodal learning unimodal characteristics multimodal loss classification performance modality contribution

发现论文，激发创造

多损失梯度调节改进多模态学习

通过学习多种模态（如音频和视频）可以利用互补信息，提高模型性能，本文提出了一种多损失目标和改进的平衡过程，通过动态调整不同模态的学习速度来实现更好的结果。

May, 2024

多模态学习为何比单一模态学习更好（可证明）

本文证明了使用多种模态进行深度学习相比于使用单一模态，采用常见的多模态融合框架可以更好地学习，并且能够获得较小的总体风险，这是首个从泛化角度捕捉到真实多模态应用中重要的定性现象的理论论证。

Jun, 2021

关于多模态与单模态机器学习之间更强的计算分离

多模式机器学习与单模式学习的理论模型、计算分离以及平均情况的计算分离是本篇论文的主要研究内容。

Apr, 2024

多模式学习理论

研究多模态学习算法的泛化性质，发现与单一模态学习相比，多模态学习可以达到更好的泛化界限，最多可以提高到 O (√n) 倍，其中 n 代表样本大小。

Sep, 2023

监督多模式学习中的单模式特征学习

通过提出一种针对多模态学习的目标后融合方法并使用 Uni-Modal Ensemble (UME) 和 Uni-Modal Teacher (UMT) 的策略来得出 Uni-Modal 特征和 paired 特征的分布，可以在各种多模态数据集上实现与其他复杂的后融合或中间融合方法可比的结果。我们证明，缺乏在每个模态上进行 Uni-modal feature learning 的现象将确实损害模型的泛化能力。

May, 2023

UniS-MMC: 多模态分类方法，通过单模态监督的多模态对比学习

本文提出了一种新的多模态对比方法，以无单模预测的弱监督下探索更可靠的多模态表示，实验证明该方法优于当前最先进的多模态方法，适用于图像 - 文本分类。

May, 2023

MultiBench: 多模态表示学习的多尺度基准

MultiBench 是一个系统性和统一化的基准测试，跨越 15 个数据集，10 种模态，20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程，简化和标准化数据加载，实验设置和模型评估。随着大量的实践证明，不同研究领域提出的方法可以改善 9/15 数据集的最先进性能。MultiBench 处理了跨模态一般化，复杂性和健壮性的问题，对于未来研究具有重要的挑战性，包括可扩展性到大规模多模态数据集和对现实缺陷的健壮性。

Jul, 2021

多模态学习中的鲁棒性

本文提出了一个多模态鲁棒性框架，以系统分析常见的多模态表示学习方法，并针对其中的鲁棒性缺陷提出了两种干预技术，能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时，通过在可能存在的额外模态上更好地利用这些干预技术，本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。

Apr, 2023

利用单模型教师提升多模态学习

通过结合融合目标和单模态蒸馏的方法，提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题，为实现真实世界的机器人应用奠定了基础。

Jun, 2021

多模态情感分析中的单模编码和跨模态预测的多模态对比学习

本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架，用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术，包括单模态对比编码和伪孪生网络，来过滤内嵌噪声和捕获跨模态动态。此外，我们设计了两种对比学习任务，实例和基于情感的对比学习，以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明，我们的方法超过了现有的最先进方法。

Oct, 2022