研究多模态学习算法的泛化性质,发现与单一模态学习相比,多模态学习可以达到更好的泛化界限,最多可以提高到 O (√n) 倍,其中 n 代表样本大小。
Sep, 2023
提出了一种通过引导网络在训练阶段促进知识共享,利用多模式表示训练用于推理的更好的单模式模型,以解决存在缺失模式的多模态模型应用受限和过高计算成本的问题。通过真实生活中的暴力检测实验证明,所提出的框架训练的单模式模型明显优于传统训练的模型,并且推理成本相同。
本研究通过信息论方法对半监督学习中多模态交互的量化和分析,提出自下界和自上界的措施,并探讨了两个半监督多模态应用
Jun, 2023
通过提出一种针对多模态学习的目标后融合方法并使用 Uni-Modal Ensemble (UME) 和 Uni-Modal Teacher (UMT) 的策略来得出 Uni-Modal 特征和 paired 特征的分布,可以在各种多模态数据集上实现与其他复杂的后融合或中间融合方法可比的结果。我们证明,缺乏在每个模态上进行 Uni-modal feature learning 的现象将确实损害模型的泛化能力。
May, 2023
通过结合融合目标和单模态蒸馏的方法,提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题,为实现真实世界的机器人应用奠定了基础。
Jun, 2021
本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架,用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤内嵌噪声和捕获跨模态动态。此外,我们设计了两种对比学习任务,实例和基于情感的对比学习,以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明,我们的方法超过了现有的最先进方法。
Oct, 2022
本文提出了一种机制,可以根据待学习的新图像类别自适应地从视觉和语义两方面结合信息,通过一系列实验表明,这种自适应组合可以在所有基准和 few-shot 情景上大幅优于当前单模态学习方法和模态对齐方法,特别是在少样本的情况下。
Feb, 2019
本文提出了一种新的多模态对比方法,以无单模预测的弱监督下探索更可靠的多模态表示,实验证明该方法优于当前最先进的多模态方法,适用于图像 - 文本分类。
通过跨模态训练,结合视觉和语言信息,利用少量的训练样本和类名,建立了一个更好的狗狗分类器,并构建了第一个音视频少样本学习基准。
Jan, 2023
该论文提出了一种利用多个成像模式的新型自监督方法,设计了一个多模式拼图任务以促进多种图像模式的特征表征,提出了一种利用跨模态生成技术进行多模态数据增强的方法,实验表明该方法能够提高数据效率和语义表征,广泛应用于四种不同的下游任务,并取得了领先的成果。
Dec, 2019