多模式学习理论

Sep, 2023

A Theory of Multimodal Learning

Zhou Lu

TL;DR研究多模态学习算法的泛化性质，发现与单一模态学习相比，多模态学习可以达到更好的泛化界限，最多可以提高到 O (√n) 倍，其中 n 代表样本大小。

Abstract

Human perception of the empirical world involves recognizing the diverse appearances, or 'modalities', of underlying objects. Despite the longstanding consideration of this perspective in philosophy and cognitive science, the study of multimodality remains relatively under-explored wit

multimodal learning generalization properties modalities machine learning superior generalization bound

发现论文，激发创造

多模式学习的计算优势

人类感知本身具有多模态特性。同样地，当机器对经验世界进行解读时，它们的学习过程也应该是多模态的。最近在实证多模态学习方面取得的显著成功突显了理解这一范式的重要性。然而，多模态学习的坚实的理论基础长期以来一直困扰着该领域。本研究基于 Lu (2023) 近期的研究结果，展示了多模态学习相对于单模态学习在样本复杂性上的优势，但还存在一个基本问题：多模态学习是否也在计算上具备优势？本文开始对多模态学习的计算益处进行研究。我们证明，在特定条件下，多模态学习在计算方面能够以指数级超越单模态学习。具体地，我们提出了一个对单模态学习而言是 NP-hard 的学习任务，但可以由多模态算法在多项式时间内解决。我们的构建基于对两个半空间交点问题的新颖修改。

Sep, 2023

多模态机器学习：概述与分类

多模态机器学习作为一个充满潜力的多学科领域，在不断发展和完善，其普遍的分类包括：表示、翻译、对齐、融合和协同学习。该研究旨在通过共性的分类方式，综合总结目前该领域的研究进展，以期为未来的研究指明方向。

May, 2017

多模态学习为何比单一模态学习更好（可证明）

本文证明了使用多种模态进行深度学习相比于使用单一模态，采用常见的多模态融合框架可以更好地学习，并且能够获得较小的总体风险，这是首个从泛化角度捕捉到真实多模态应用中重要的定性现象的理论论证。

Jun, 2021

多模态机器学习的基础和趋势：原理、挑战和开放性问题

本文旨在探讨多模态机器学习的计算与理论基础，定义了三个关键原则和六个核心技术挑战，并提出多个未来研究的开放性问题。

Sep, 2022

学习未见过的模态交互

本文针对多模态学习的完备性假设提出挑战，提出一种基于特征投影模块的解决方案，在推理过程中实现对看不见模态的泛化。同时使用伪监督来指示模态的预测可靠性。实验结果表明，该方法对于各种任务和模态具有很好的效果。

Jun, 2023

多模态机器学习中的模态影响

本研究旨在探讨每种模态对 Multimodal Machine Learning 模型的影响，并针对不同分类任务的数据集和模型，提出了一种确定每种模态对 Multimodal Machine Learning 模型的影响的方法。研究结果对于理解多模态学习中每个模态的作用，并为该领域的未来发展提供了有价值的见解。

Jun, 2023

关于多模态与单模态机器学习之间更强的计算分离

多模式机器学习与单模式学习的理论模型、计算分离以及平均情况的计算分离是本篇论文的主要研究内容。

Apr, 2024

多模态学习中的鲁棒性

本文提出了一个多模态鲁棒性框架，以系统分析常见的多模态表示学习方法，并针对其中的鲁棒性缺陷提出了两种干预技术，能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时，通过在可能存在的额外模态上更好地利用这些干预技术，本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。

Apr, 2023

多模式是什么？

本论文讲述了多模态机器学习领域的发展，提出了当前使用的多模式定义过时，不适用于机器学习时代，并提出一种基于任务相对定义的新的多模态定义，重点关注与给定机器学习任务相关的表示和信息。通过我们的新的多模态定义，旨在为多模态研究提供缺失的基础，这是语言基础和迈向自然语言理解的重要组成部分。

Mar, 2021

多模态智能：表示学习、信息融合与应用

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019