多模态学习中的鲁棒性
通过学习多种模态(如音频和视频)可以利用互补信息,提高模型性能,本文提出了一种多损失目标和改进的平衡过程,通过动态调整不同模态的学习速度来实现更好的结果。
May, 2024
MultiBench 是一个系统性和统一化的基准测试,跨越 15 个数据集,10 种模态,20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程,简化和标准化数据加载,实验设置和模型评估。随着大量的实践证明,不同研究领域提出的方法可以改善 9/15 数据集的最先进性能。MultiBench 处理了跨模态一般化,复杂性和健壮性的问题,对于未来研究具有重要的挑战性,包括可扩展性到大规模多模态数据集和对现实缺陷的健壮性。
Jul, 2021
多模态模型容易受到单模态攻击和缺失条件的干扰,为了克服这些干扰,需要具备鲁棒的多模态表示。本文通过理论研究发现,较大的单模态表示边界和更可靠的模态融合是实现更高鲁棒性的重要组成部分。基于这一发现,引入了一种训练过程称为可证明鲁棒的多模态训练 (Certifiable Robust Multi-modal Training,CRMT),该方法可以明显提高鲁棒性的可信度和灵活性。
Feb, 2024
该论文旨在研究多模态攻击下机器的多感官感知能力,针对多模态对抗攻击对视听事件识别任务的影响,提出弱监督声音定位模型并基于音视频相似性约束和外部特征存储器实现了一种反对抗防御方法,实验结果表明该方法可有效提高视听网络的鲁棒性。
Apr, 2021
提出了一种简单而有效的框架 TRML,即利用多模态基础模型进行鲁棒多模态学习,通过生成虚拟模态替代丢失模态,并对生成和丢失模态之间的语义空间进行对齐,从而捕捉缺失模态的语义。在完整模态的情况下,我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。
Jan, 2024
本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试中获得最先进的性能。
Jun, 2020
多模态机器学习作为一个充满潜力的多学科领域,在不断发展和完善,其普遍的分类包括:表示、翻译、对齐、融合和协同学习。该研究旨在通过共性的分类方式,综合总结目前该领域的研究进展,以期为未来的研究指明方向。
May, 2017