学习未见过的模态交互

Jun, 2023

Learning Unseen Modality Interaction

Yunhua Zhang, Hazel Doughty, Cees G.M. Snoek

TL;DR本文针对多模态学习的完备性假设提出挑战，提出一种基于特征投影模块的解决方案，在推理过程中实现对看不见模态的泛化。同时使用伪监督来指示模态的预测可靠性。实验结果表明，该方法对于各种任务和模态具有很好的效果。

Abstract

multimodal learning assumes all modality combinations of interest are available during training to learn cross-modal correspondences. In this paper, we challenge this modality-complete assumption for multimodal learning

multimodal learning feature projection module unseen modality interaction pseudo-supervision multimedia retrieval

发现论文，激发创造

多模式学习理论

研究多模态学习算法的泛化性质，发现与单一模态学习相比，多模态学习可以达到更好的泛化界限，最多可以提高到 O (√n) 倍，其中 n 代表样本大小。

Sep, 2023

多模导向网络用于缺失模态推断

提出了一种通过引导网络在训练阶段促进知识共享，利用多模式表示训练用于推理的更好的单模式模型，以解决存在缺失模式的多模态模型应用受限和过高计算成本的问题。通过真实生活中的暴力检测实验证明，所提出的框架训练的单模式模型明显优于传统训练的模型，并且推理成本相同。

Sep, 2023

无标注多模态数据下的多模态学习：保证和应用

本研究通过信息论方法对半监督学习中多模态交互的量化和分析，提出自下界和自上界的措施，并探讨了两个半监督多模态应用

Jun, 2023

监督多模式学习中的单模式特征学习

通过提出一种针对多模态学习的目标后融合方法并使用 Uni-Modal Ensemble (UME) 和 Uni-Modal Teacher (UMT) 的策略来得出 Uni-Modal 特征和 paired 特征的分布，可以在各种多模态数据集上实现与其他复杂的后融合或中间融合方法可比的结果。我们证明，缺乏在每个模态上进行 Uni-modal feature learning 的现象将确实损害模型的泛化能力。

May, 2023

利用单模型教师提升多模态学习

通过结合融合目标和单模态蒸馏的方法，提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题，为实现真实世界的机器人应用奠定了基础。

Jun, 2021

多模态情感分析中的单模编码和跨模态预测的多模态对比学习

本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架，用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术，包括单模态对比编码和伪孪生网络，来过滤内嵌噪声和捕获跨模态动态。此外，我们设计了两种对比学习任务，实例和基于情感的对比学习，以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明，我们的方法超过了现有的最先进方法。

Oct, 2022

自适应交叉模态少样本学习

本文提出了一种机制，可以根据待学习的新图像类别自适应地从视觉和语义两方面结合信息，通过一系列实验表明，这种自适应组合可以在所有基准和 few-shot 情景上大幅优于当前单模态学习方法和模态对齐方法，特别是在少样本的情况下。

Feb, 2019

UniS-MMC: 多模态分类方法，通过单模态监督的多模态对比学习

本文提出了一种新的多模态对比方法，以无单模预测的弱监督下探索更可靠的多模态表示，实验证明该方法优于当前最先进的多模态方法，适用于图像 - 文本分类。

May, 2023

多模态帮助单模态：利用多模态模型进行跨模态少样本学习

通过跨模态训练，结合视觉和语言信息，利用少量的训练样本和类名，建立了一个更好的狗狗分类器，并构建了第一个音视频少样本学习基准。

Jan, 2023

医学图像分析的多模态自监督学习

该论文提出了一种利用多个成像模式的新型自监督方法，设计了一个多模式拼图任务以促进多种图像模式的特征表征，提出了一种利用跨模态生成技术进行多模态数据增强的方法，实验表明该方法能够提高数据效率和语义表征，广泛应用于四种不同的下游任务，并取得了领先的成果。

Dec, 2019