U3M: 多模态语义分割的无偏多尺度模态融合模型
提出了一种自适应动态融合多模态语义分割框架,采用自监督模型的融合机制来优化融合多模态特征,在物体类别、空间位置和场景上下文方面增强鲁棒性,同时提出了一种计算高效的 AdapNet ++ 单模分割体系结构,并获得了最新的性能。
Aug, 2018
提出一种简单且高效的多模态融合机制:线性融合(Linear Fusion),通过半监督学习的方式提高了多模态语义分割的性能,并使模型对现实世界中缺失模态的情况更加健壮。
Apr, 2023
利用多模态数据的几何和语义特征,通过三个步骤来完成多模态 3D 语义分割任务。经过我们的研究,MSeg3D 在 nuScenes、Waymo 和 SemanticKITTI 数据集上取得了最先进的结果。
Mar, 2023
本文提出了一种新的多模态对比方法,以无单模预测的弱监督下探索更可靠的多模态表示,实验证明该方法优于当前最先进的多模态方法,适用于图像 - 文本分类。
May, 2023
通过提出一种针对多模态学习的目标后融合方法并使用 Uni-Modal Ensemble (UME) 和 Uni-Modal Teacher (UMT) 的策略来得出 Uni-Modal 特征和 paired 特征的分布,可以在各种多模态数据集上实现与其他复杂的后融合或中间融合方法可比的结果。我们证明,缺乏在每个模态上进行 Uni-modal feature learning 的现象将确实损害模型的泛化能力。
May, 2023
该论文提出了一种新的统一的多模式图像综合方法,包括通过生成敌对网络从任意可用模式的组合中合成丢失的模态,并使用共性和差异敏感编码器及动态特征统一模块来提高图像合成质量和适应性,实验结果表明该方法在处理多种综合任务时具有优越的性能。
Apr, 2023
该论文介绍了一种新颖的无监督多模态聚类方法(UMC),它在无监督情景下利用非语言信息来辨识复杂语义,并通过动态选择高质量样本来学习表示,从而在聚类度量方面取得了 2-6%得分的显著提高。
May, 2024
通过提供一个分析框架和新的度量标准,我们研究了多模态视觉社区的解释。通过实验,我们调查了不同模态之间的一致性和特殊性,模态内的演化规则,以及优化多模态模型时使用的协作逻辑,并揭示了一些重要发现,这些发现有助于重新思考流行的多模态视觉融合策略的合理性和必要性,从而为未来设计一个可信赖和通用的多模态融合模型奠定了基础。
Aug, 2023
本文提出了在监督医学图像分析中进行图像融合方案的概念架构,实现了基于卷积神经网络的三种图像融合方案,并将其结合成单个框架,用于同时分析多模式图像,检测软组织肉瘤的存在,并发现在特征级别融合的情况下,性能最好,但当任何图像模式存在大误差时,其鲁棒性会降低。
Oct, 2017
本研究提出了一种新颖的基于深度学习的多模态数据融合框架,具有异构维度(例如 3D+2D)的兼容定位任务的能力,并在地理萎缩和视网膜血管分割任务上取得了优于现有单模态方法的结果。
Feb, 2024