关于多模态与单模态机器学习之间更强的计算分离
人类感知本身具有多模态特性。同样地,当机器对经验世界进行解读时,它们的学习过程也应该是多模态的。最近在实证多模态学习方面取得的显著成功突显了理解这一范式的重要性。然而,多模态学习的坚实的理论基础长期以来一直困扰着该领域。本研究基于 Lu (2023) 近期的研究结果,展示了多模态学习相对于单模态学习在样本复杂性上的优势,但还存在一个基本问题:多模态学习是否也在计算上具备优势?本文开始对多模态学习的计算益处进行研究。我们证明,在特定条件下,多模态学习在计算方面能够以指数级超越单模态学习。具体地,我们提出了一个对单模态学习而言是 NP-hard 的学习任务,但可以由多模态算法在多项式时间内解决。我们的构建基于对两个半空间交点问题的新颖修改。
Sep, 2023
多模态机器学习作为一个充满潜力的多学科领域,在不断发展和完善,其普遍的分类包括:表示、翻译、对齐、融合和协同学习。该研究旨在通过共性的分类方式,综合总结目前该领域的研究进展,以期为未来的研究指明方向。
May, 2017
本文证明了使用多种模态进行深度学习相比于使用单一模态,采用常见的多模态融合框架可以更好地学习,并且能够获得较小的总体风险,这是首个从泛化角度捕捉到真实多模态应用中重要的定性现象的理论论证。
Jun, 2021
本文提出了一个多模态鲁棒性框架,以系统分析常见的多模态表示学习方法,并针对其中的鲁棒性缺陷提出了两种干预技术,能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时,通过在可能存在的额外模态上更好地利用这些干预技术,本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。
Apr, 2023
本文提出了一种新的多模态对比方法,以无单模预测的弱监督下探索更可靠的多模态表示,实验证明该方法优于当前最先进的多模态方法,适用于图像 - 文本分类。
May, 2023