U3M: 多模态语义分割的无偏多尺度模态融合模型

May, 2024

U3M: 多模态语义分割的无偏多尺度模态融合模型

U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation

Bingyu Li, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li

TL;DR我们介绍了 U3M：一种用于多模态语义分割的无偏多尺度模态融合模型，其通过有效提取和整合全局和局部特征，实现了在多个数据集上的优越性能，并证实了在各种环境中增强语义分割的鲁棒性和多样性。

Abstract

multimodal semantic segmentation is a pivotal component of computer vision and typically surpasses unimodal methods by utilizing rich information set from various sources.Current models frequently adopt

multimodal semantic segmentation modality-specific frameworks multimodal fusion u3m semantic segmentation

发现论文，激发创造

多模态语义分割的自监督模型适应

提出了一种自适应动态融合多模态语义分割框架，采用自监督模型的融合机制来优化融合多模态特征，在物体类别、空间位置和场景上下文方面增强鲁棒性，同时提出了一种计算高效的 AdapNet ++ 单模分割体系结构，并获得了最新的性能。

Aug, 2018

半监督多模式语义分割中的缺失模态稳健性

提出一种简单且高效的多模态融合机制：线性融合（Linear Fusion），通过半监督学习的方式提高了多模态语义分割的性能，并使模型对现实世界中缺失模态的情况更加健壮。

Apr, 2023

自动驾驶多模态三维语义分割 MSeg3D

利用多模态数据的几何和语义特征，通过三个步骤来完成多模态 3D 语义分割任务。经过我们的研究，MSeg3D 在 nuScenes、Waymo 和 SemanticKITTI 数据集上取得了最先进的结果。

Mar, 2023

UniS-MMC: 多模态分类方法，通过单模态监督的多模态对比学习

本文提出了一种新的多模态对比方法，以无单模预测的弱监督下探索更可靠的多模态表示，实验证明该方法优于当前最先进的多模态方法，适用于图像 - 文本分类。

May, 2023

监督多模式学习中的单模式特征学习

通过提出一种针对多模态学习的目标后融合方法并使用 Uni-Modal Ensemble (UME) 和 Uni-Modal Teacher (UMT) 的策略来得出 Uni-Modal 特征和 paired 特征的分布，可以在各种多模态数据集上实现与其他复杂的后融合或中间融合方法可比的结果。我们证明，缺乏在每个模态上进行 Uni-modal feature learning 的现象将确实损害模型的泛化能力。

May, 2023

缺失模态插值的统一多模态图像合成

该论文提出了一种新的统一的多模式图像综合方法，包括通过生成敌对网络从任意可用模式的组合中合成丢失的模态，并使用共性和差异敏感编码器及动态特征统一模块来提高图像合成质量和适应性，实验结果表明该方法在处理多种综合任务时具有优越的性能。

Apr, 2023

非监督多模态聚类用于多模态话语中的语义发现

该论文介绍了一种新颖的无监督多模态聚类方法（UMC），它在无监督情景下利用非语言信息来辨识复杂语义，并通过动态选择高质量样本来学习表示，从而在聚类度量方面取得了 2-6％得分的显著提高。

May, 2024

多模态视觉融合的解读

通过提供一个分析框架和新的度量标准，我们研究了多模态视觉社区的解释。通过实验，我们调查了不同模态之间的一致性和特殊性，模态内的演化规则，以及优化多模态模型时使用的协作逻辑，并揭示了一些重要发现，这些发现有助于重新思考流行的多模态视觉融合策略的合理性和必要性，从而为未来设计一个可信赖和通用的多模态融合模型奠定了基础。

Aug, 2023

基于多模态卷积神经网络的医学图像分割：图像融合方案研究

本文提出了在监督医学图像分析中进行图像融合方案的概念架构，实现了基于卷积神经网络的三种图像融合方案，并将其结合成单个框架，用于同时分析多模式图像，检测软组织肉瘤的存在，并发现在特征级别融合的情况下，性能最好，但当任何图像模式存在大误差时，其鲁棒性会降低。

Oct, 2017

通过投影网络对具有异构维度的数据进行深度多模态融合

本研究提出了一种新颖的基于深度学习的多模态数据融合框架，具有异构维度（例如 3D+2D）的兼容定位任务的能力，并在地理萎缩和视网膜血管分割任务上取得了优于现有单模态方法的结果。

Feb, 2024