多模态学习中的单模态偏差理论
该篇论文通过创建卷积 LSTM 网络结构,研究了多模态表示学习中视听融合的早期处理,结果表明,在初始 C-LSTM 层中立即融合音频和视觉输入可以提高网络的性能,使其更能够抵抗白噪声的干扰。
Nov, 2020
多模态持续学习中,多个视角和多模态的互补信息使模型学习到更准确、更稳健的表示,显著减轻遗忘,并通过利用各个模态之间数据点的关系结构相似性,提出了一种整合和对齐不同模态信息的方法。
May, 2024
通过提出一种针对多模态学习的目标后融合方法并使用 Uni-Modal Ensemble (UME) 和 Uni-Modal Teacher (UMT) 的策略来得出 Uni-Modal 特征和 paired 特征的分布,可以在各种多模态数据集上实现与其他复杂的后融合或中间融合方法可比的结果。我们证明,缺乏在每个模态上进行 Uni-modal feature learning 的现象将确实损害模型的泛化能力。
May, 2023
通过多分支架构和多模态训练,本文提出一种改进单模态模型性能的方法,通过多任务目标,强大的多模态分支将其知识传递给较弱的单模态分支,从而提高了单模态模型的性能。该方法在手势识别、情感识别和情感分析任务上优于传统训练的单模态模型,并观察到优化单模态分支可以改进多模态分支的性能。
Nov, 2023
利用 FLAVA 模型进行消融研究,独立变化文本和视觉输入量,发现多模态预训练既不损害模型的语言性能,也没有一致的帮助作用;然而,由于实验规模有限,这些结论还不完全确定,需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。
Feb, 2024
本文证明了使用多种模态进行深度学习相比于使用单一模态,采用常见的多模态融合框架可以更好地学习,并且能够获得较小的总体风险,这是首个从泛化角度捕捉到真实多模态应用中重要的定性现象的理论论证。
Jun, 2021
通过结合融合目标和单模态蒸馏的方法,提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题,为实现真实世界的机器人应用奠定了基础。
Jun, 2021
人类感知本身具有多模态特性。同样地,当机器对经验世界进行解读时,它们的学习过程也应该是多模态的。最近在实证多模态学习方面取得的显著成功突显了理解这一范式的重要性。然而,多模态学习的坚实的理论基础长期以来一直困扰着该领域。本研究基于 Lu (2023) 近期的研究结果,展示了多模态学习相对于单模态学习在样本复杂性上的优势,但还存在一个基本问题:多模态学习是否也在计算上具备优势?本文开始对多模态学习的计算益处进行研究。我们证明,在特定条件下,多模态学习在计算方面能够以指数级超越单模态学习。具体地,我们提出了一个对单模态学习而言是 NP-hard 的学习任务,但可以由多模态算法在多项式时间内解决。我们的构建基于对两个半空间交点问题的新颖修改。
Sep, 2023