多模态学习中的鲁棒性

Apr, 2023

On Robustness in Multimodal Learning

Brandon McKinzie, Joseph Cheng, Vaishaal Shankar, Yinfei Yang, Jonathon Shlens...

TL;DR本文提出了一个多模态鲁棒性框架，以系统分析常见的多模态表示学习方法，并针对其中的鲁棒性缺陷提出了两种干预技术，能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时，通过在可能存在的额外模态上更好地利用这些干预技术，本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。

Abstract

multimodal learning is defined as learning over multiple heterogeneous input modalities such as video, audio, and text. In this work, we are concerned with understanding how models behave as the type of

multimodal learning modalities robustness framework representation learning intervention techniques

发现论文，激发创造

多模式学习理论

研究多模态学习算法的泛化性质，发现与单一模态学习相比，多模态学习可以达到更好的泛化界限，最多可以提高到 O (√n) 倍，其中 n 代表样本大小。

Sep, 2023

多损失梯度调节改进多模态学习

通过学习多种模态（如音频和视频）可以利用互补信息，提高模型性能，本文提出了一种多损失目标和改进的平衡过程，通过动态调整不同模态的学习速度来实现更好的结果。

May, 2024

通过参数高效适应处理缺失模态的鲁棒多模态学习

使用多模态学习提高下游任务的性能，并通过简单且参数高效的自适应过程针对缺失的模态实现鲁棒性。

Oct, 2023

MultiBench: 多模态表示学习的多尺度基准

MultiBench 是一个系统性和统一化的基准测试，跨越 15 个数据集，10 种模态，20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程，简化和标准化数据加载，实验设置和模型评估。随着大量的实践证明，不同研究领域提出的方法可以改善 9/15 数据集的最先进性能。MultiBench 处理了跨模态一般化，复杂性和健壮性的问题，对于未来研究具有重要的挑战性，包括可扩展性到大规模多模态数据集和对现实缺陷的健壮性。

Jul, 2021

用偏好模态量化和增强多模态稳健性

多模态模型容易受到单模态攻击和缺失条件的干扰，为了克服这些干扰，需要具备鲁棒的多模态表示。本文通过理论研究发现，较大的单模态表示边界和更可靠的模态融合是实现更高鲁棒性的重要组成部分。基于这一发现，引入了一种训练过程称为可证明鲁棒的多模态训练 (Certifiable Robust Multi-modal Training，CRMT)，该方法可以明显提高鲁棒性的可信度和灵活性。

Feb, 2024

多模式协同学习：挑战、数据集应用、最新进展与未来方向

该研究对于多模态联合学习进行了全面系统的综述，介绍了多种技术和应用，讨论了存在的挑战和未来的研究方向。

Jul, 2021

音视频整合能否增强对多模态攻击的鲁棒性？

该论文旨在研究多模态攻击下机器的多感官感知能力，针对多模态对抗攻击对视听事件识别任务的影响，提出弱监督声音定位模型并基于音视频相似性约束和外部特征存储器实现了一种反对抗防御方法，实验结果表明该方法可有效提高视听网络的鲁棒性。

Apr, 2021

基于多模态基础模型的鲁棒多模态学习

提出了一种简单而有效的框架 TRML，即利用多模态基础模型进行鲁棒多模态学习，通过生成虚拟模态替代丢失模态，并对生成和丢失模态之间的语义空间进行对齐，从而捕捉缺失模态的语义。在完整模态的情况下，我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。

Jan, 2024

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020

多模态机器学习：概述与分类

多模态机器学习作为一个充满潜力的多学科领域，在不断发展和完善，其普遍的分类包括：表示、翻译、对齐、融合和协同学习。该研究旨在通过共性的分类方式，综合总结目前该领域的研究进展，以期为未来的研究指明方向。

May, 2017