TCGM:一种信息论半监督多模态学习框架
本研究旨在提出一种算法用于跨模态泛化,通过使用强弱配对的跨模态数据对表示空间进行元对齐的新方法,实现在不同模态下快速完成新任务的训练。该算法被运用于三个分类任务,即文本到图像,图像到音频和文本到语音,即使目标模态只有少量(1-10)标记样本和存在噪声标签,该算法的表现也非常强。
Dec, 2020
本文设计了一个基于自监督学习策略的标签生成模块,通过联合训练多模态和单模态任务来分别学习一致性和差异,采用权重调整策略来平衡不同子任务的学习进度,验证了自动生成的单模态监督标签的可靠性和稳定性,超过了现有的最先进方法和人工注释的单模态标签。
Feb, 2021
本研究提出了一种基于深度学习的多模态情感分析的表示学习方法,使用协方差矩阵来捕捉模态之间的共享信息,同时采用基于自监督学习策略的标签生成模块来捕捉模态的私有信息,并使用多任务学习来帮助模型关注模态差异训练数据。实验结果表明,该方法在多个公共数据集上表现优于现有的同类方法。
May, 2023
多模态学习模型的主题之一是将来自不同模态的异构信息进行联合整合,然而,大多数模型在多模态协同方面存在不足,不能很好地利用所有模态信息,因此,合理观察和改进模态之间的细粒度协同至关重要,特别是在面对现实场景时,模态差异可能在不同样本间有所变化。为此,本文引入了一种细粒度的模态评估度量,以评估单个样本水平上每个模态的贡献。通过模态评估,我们可遗憾地观察到多模态模型倾向于依赖某个特定模态,导致其他模态的贡献较低。我们进一步分析了这个问题,并通过有针对性地增强低贡献模态的区分能力来改善模态之间的协同。总的来说,我们的方法在样本级别上合理观察了细粒度的单模态贡献,并在不同的多模态模型上取得了显著改进。
Sep, 2023
研究了当模态样本稀疏对齐时,掩蔽多模态变换器架构学习鲁棒嵌入空间的能力,并通过测量嵌入空间的质量作为模态稀疏的函数来验证。提出了一种扩展的掩蔽多模态变换器模型,它在多头注意机制中结合了模态不完整通道,称为模态通道注意(MCA)。使用两个数据集进行实验,分别为多模态情感识别的CMU-MOSEI和多组学的TCGA。结果表明,在大多数样本中,模型能够学习到统一和对齐的嵌入空间,即使只有四个模态中的两个。结果还表明,即使没有模态稀疏,提出的MCA机制仍能提高生成嵌入空间的质量、召回指标以及下游任务的性能。
Mar, 2024
从因果关系的角度重新审视多模态表示学习,构建结构因果模型,引入β-泛化前门准则,通过提出的方法充分探索多模态判别性知识的内在机制的严格理论分析和多种经验评估支持其有效性。
Jun, 2024
为了解决不平衡的多模态学习问题,本文提出了一种诊断与再学习的方法,通过对模态能力的内在限制进行考虑,以及对所有模态的均衡处理,从而有效地平衡和增强多模态学习。
Jul, 2024