通过 $β$- 广义前门准则进行干预性非平衡多模态表示学习
多模态模型容易受到单模态攻击和缺失条件的干扰,为了克服这些干扰,需要具备鲁棒的多模态表示。本文通过理论研究发现,较大的单模态表示边界和更可靠的模态融合是实现更高鲁棒性的重要组成部分。基于这一发现,引入了一种训练过程称为可证明鲁棒的多模态训练 (Certifiable Robust Multi-modal Training,CRMT),该方法可以明显提高鲁棒性的可信度和灵活性。
Feb, 2024
本文研究了在多模态分类系统中影响模型性能的模态偏差问题,通过构建两个基于 Out-of-Distribution 协议的数据集和提出一种自适应的 plug-and-play 损失函数方法,在彩色数字识别、视频动作识别和视觉问答三个任务上实现了明显的性能改进,证明了该方法在减少模态偏差问题方面的优越性。
Feb, 2022
多模态元学习中,通过语言表示来指导视觉学习的多模态架构被提出,但在两个流行的少样本分类基准上验证后发现改进效果不稳定且主要取决于桥连接网络的计算和参数引入。
May, 2024
MultiBench 是一个系统性和统一化的基准测试,跨越 15 个数据集,10 种模态,20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程,简化和标准化数据加载,实验设置和模型评估。随着大量的实践证明,不同研究领域提出的方法可以改善 9/15 数据集的最先进性能。MultiBench 处理了跨模态一般化,复杂性和健壮性的问题,对于未来研究具有重要的挑战性,包括可扩展性到大规模多模态数据集和对现实缺陷的健壮性。
Jul, 2021
本文研究了多模式学习中可能存在的优化失衡问题,提出了一种新的梯度调节方法,通过动态监测不同输入模态的贡献来自适应地优化每个模态,以解决某些场景下存在的支配模态问题,并且在不同的多模式任务中能够获得显著的改进效果。
Mar, 2022
通过学习多种模态(如音频和视频)可以利用互补信息,提高模型性能,本文提出了一种多损失目标和改进的平衡过程,通过动态调整不同模态的学习速度来实现更好的结果。
May, 2024
本研究提出了一种名为 Geometric Multimodal Contrastive (GMC) 的表示学习方法,采用两级体系结构和多模态对比损失函数,可用于处理缺失数据,在三个不同的学习问题上实现了最先进的性能。
Feb, 2022
用于多模态数据的统一因果模型,通过线性独立成分分析的方法,可以提高对多模态对比表示学习的理解和分析深度,发现预训练的多模态模型可以通过学习解缠表示来提高其性能和鲁棒性。
Feb, 2024