聚焦每种模态的价值：朝着高效和弹性的无模态语义分割

Jul, 2024

聚焦每种模态的价值：朝着高效和弹性的无模态语义分割

Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation

Xu Zheng, Yuanhuiyi Lyu, Jiazhou Zhou, Lin Wang

TL;DR提出了一种名为MAGIC的新方法，通过多模态聚合模块和任意模态选择模块，灵活地配合各种主干网络，实现多模态语义分割并取得了最先进的性能，同时降低了模型参数60%。

Abstract

Fusing an arbitrary number of modalities is vital for achieving robust multi-modal fusion of semantic segmentation yet remains less explor

发现论文，激发创造

多模态语义分割的自监督模型适应

提出了一种自适应动态融合多模态语义分割框架，采用自监督模型的融合机制来优化融合多模态特征，在物体类别、空间位置和场景上下文方面增强鲁棒性，同时提出了一种计算高效的AdapNet ++单模分割体系结构，并获得了最新的性能。

Aug, 2018

具有隔离-聚合门的RGB-D语义分割的双向跨模态特征传播

本文提出了一种统一且高效的跨模态引导编码器，通过分离-聚合门技术，不仅可以有效地校准RGB特征响应，而且可以通过多个阶段和交替聚合两个重新校准的表示来提取准确的深度信息，同时引入双向多步传播策略来提高RGB-D语义分割性能.

Jul, 2020

CMX: 基于Transformer的RGB-X语义分割的跨模态融合

本文提出了一种基于转换器的跨模态融合框架CMX，用于针对自主车辆的RGB-X语义分割，结果表明CMX可以推广到不同的感知模态，并实现在多个基准数据集上的最新技术性能。

Mar, 2022

递送任意模态的语义分割

利用多模态融合可以使语义分割更具鲁棒性，但是融合任意数量的模态仍未被探索，因此我们创建了DelIVER任意模态分割基准，并提供了四种恶劣天气条件和五种传感器故障情况的数据集，以利用模态互补性和解决局部故障。我们提出了交叉模态分割模型CMNeXt，它包含一个自查询中心设计来从任何模态中提取有效信息，并添加每增加一个模态只有可以忽略的参数量。在多项基准测试中，我们的方法在DelIVER，KITTI-360，MFNet，NYU Depth V2，UrbanLF和MCubeS数据集上均取得了最先进的性能。

Mar, 2023

半监督多模式语义分割中的缺失模态稳健性

提出一种简单且高效的多模态融合机制: 线性融合（Linear Fusion），通过半监督学习的方式提高了多模态语义分割的性能，并使模型对现实世界中缺失模态的情况更加健壮。

Apr, 2023

通过挖掘跨模态语义实现目标分割

利用跨模态语义指导多模态特征的融合和解码，提出了一种新的方法以控制相对熵，具有共享和特定的表示法以及跨层自我监督，并基于质量适应模态贡献的 all-round attentive fusion 和 course-to-fine decoder 两部分解码器，提高特征可辨别性和系统的表现。

May, 2023

基于对比学习的光谱知识蒸馏在语义分割中的多模态和缺失模态场景下的应用

通过使用多光谱信息来提高语义分割模型的性能对于低光和恶劣环境至关重要。提出了一种名为CSK-Net的新型多模态融合方法，它利用对比学习为光学（EO）和红外（IR）图像的语义分割提供了基于光谱知识蒸馏的融合技术。该方法不仅在多模态任务上超过了现有的模型，而且在缺失模态的情况下，仅利用IR数据进行推断就能提高性能，而与基线分割模型相比，并没有额外的计算成本。

Dec, 2023

U3M: 多模态语义分割的无偏多尺度模态融合模型

我们介绍了U3M：一种用于多模态语义分割的无偏多尺度模态融合模型，其通过有效提取和整合全局和局部特征，实现了在多个数据集上的优越性能，并证实了在各种环境中增强语义分割的鲁棒性和多样性。

May, 2024

学习模态无关的语义分割表示

通过从多模态视觉语言模型中进行知识蒸馏的方式，提出了一种新的学习无模态偏好表示的框架，该框架能够在任何视觉条件下结合任何模态并实现稳健的分割，实验证明其在多模态和模态不完整的情境下均达到了最先进水平。

Jul, 2024

StitchFusion：编织任意视觉模态以增强多模态语义分割

本文解决了当前多模态语义分割方法在输入灵活性和训练参数数量上的限制。提出了一种名为StitchFusion的新框架，通过共享多模态视觉信息，实现了对任意视觉输入的综合特征融合。实验结果表明，该模型在四个多模态分割数据集上性能达到最先进水平，同时增加的参数极少。

Aug, 2024