遥感数据融合的不完全多模态学习
本研究旨在深入探究 Transformer 模型在缺失模态数据的情况下的行为,并发现最优融合策略是数据集相关的,因此提出一种自动搜索输入数据最优融合策略以提高 Transformer 模型鲁棒性的方法。实验证实了该方法在三个基准数据集上具有优异性能。
Apr, 2022
提出了一种自适应动态融合多模态语义分割框架,采用自监督模型的融合机制来优化融合多模态特征,在物体类别、空间位置和场景上下文方面增强鲁棒性,同时提出了一种计算高效的 AdapNet ++ 单模分割体系结构,并获得了最新的性能。
Aug, 2018
本文提出了一个针对基于 Transformer 的视觉任务的多模态令牌融合方法(TokenFusion),可以在保持单模态 Transformer 结构基本不变的同时,学习多模态特征之间的相关性,并超越三个典型视觉任务中的最先进方法。
Apr, 2022
Fus-MAE is a self-supervised learning framework based on masked autoencoders that performs data fusion between synthetic aperture radar and multispectral optical data, effectively competing with contrastive learning strategies in SAR-optical data fusion.
Jan, 2024
提出了一种简单而有效的框架 TRML,即利用多模态基础模型进行鲁棒多模态学习,通过生成虚拟模态替代丢失模态,并对生成和丢失模态之间的语义空间进行对齐,从而捕捉缺失模态的语义。在完整模态的情况下,我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。
Jan, 2024
本文提出了一种新的自监督训练方法,利用来自多个传感器的共同数据来学习每种可能的组合的有用表示,该方法在遥感分类任务中优于全监督 ImageNet 权重,并随着越来越多的传感器融合而改善。
Aug, 2021
本文章论述通过训练多模态 transformer 模型,其在语言和视觉任务上的表现证明了其可以学习到丰富的视觉 - 语言表达。其着重于零样本图像检索任务,并研究了三个重要因素:预训练数据、注意机制和损失函数,以评估其对于模型性能的影响。
Jan, 2021
提出了一种使用自注意力作为额外损失项的新架构,以在联合潜在空间中表示图像和文本;在 MS-COCO 和 ARCH 两个基准数据集上进行的实验结果表明,该方法具有很好的效果。
Mar, 2022
本文针对多模态学习的完备性假设提出挑战,提出一种基于特征投影模块的解决方案,在推理过程中实现对看不见模态的泛化。同时使用伪监督来指示模态的预测可靠性。实验结果表明,该方法对于各种任务和模态具有很好的效果。
Jun, 2023