学习模态无关的语义分割表示

Jul, 2024

Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities

Xu Zheng, Yuanhuiyi Lyu, Lin Wang

TL;DR通过从多模态视觉语言模型中进行知识蒸馏的方式，提出了一种新的学习无模态偏好表示的框架，该框架能够在任何视觉条件下结合任何模态并实现稳健的分割，实验证明其在多模态和模态不完整的情境下均达到了最先进水平。

Abstract

image modality is not perfect as it often fails in certain conditions, e.g., night and fast motion. This significantly limits the robustness and versatility of existing multi-modal (i.e., Image+X) semantic segmentation methods when confronting modality absence or failure, as often occu

发现论文，激发创造

多模态语义分割的自监督模型适应

提出了一种自适应动态融合多模态语义分割框架，采用自监督模型的融合机制来优化融合多模态特征，在物体类别、空间位置和场景上下文方面增强鲁棒性，同时提出了一种计算高效的AdapNet ++单模分割体系结构，并获得了最新的性能。

Aug, 2018

使用单塔Transformer统一视觉与语言表示空间

本文提出了一种新的多模态表示学习框架OneR，该框架可以将图像和标题简单地视为底层相互信息的两种不同视角，并统一地编码两种模态。通过对其进行全面评估，结果表明该框架具有潜在的高效性。

Nov, 2022

递送任意模态的语义分割

利用多模态融合可以使语义分割更具鲁棒性，但是融合任意数量的模态仍未被探索，因此我们创建了DelIVER任意模态分割基准，并提供了四种恶劣天气条件和五种传感器故障情况的数据集，以利用模态互补性和解决局部故障。我们提出了交叉模态分割模型CMNeXt，它包含一个自查询中心设计来从任何模态中提取有效信息，并添加每增加一个模态只有可以忽略的参数量。在多项基准测试中，我们的方法在DelIVER，KITTI-360，MFNet，NYU Depth V2，UrbanLF和MCubeS数据集上均取得了最先进的性能。

Mar, 2023

半监督多模式语义分割中的缺失模态稳健性

提出一种简单且高效的多模态融合机制: 线性融合（Linear Fusion），通过半监督学习的方式提高了多模态语义分割的性能，并使模型对现实世界中缺失模态的情况更加健壮。

Apr, 2023

用于开放式语义分割的多模态原型

本文提出了一种称为开放式语义分割（O3S）的统一框架，在视觉示例和文本名称中学习已见和未见的语义。我们的流程通过首先进行单模自我增强和聚合，然后进行多模态补充融合来提取用于分割任务的多模态原型。

Jul, 2023

一阶段模态蒸馏用于不完整多模态学习

基于多模态数据的学习近年来引起了越来越多的关注。尽管可以采集各种感官模态进行训练，但并不总是能在开发场景中获得所有的模态，这给基于不完整模态的推断带来了挑战。为了解决这个问题，本文提出了一个一阶段模态蒸馏框架，通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程。与独立执行它们的传统模态蒸馏相比，这有助于直接捕捉有助于最终模型推断的有价值表征。本文具体介绍了模态转换任务的联合适应网络，以保留特权信息。通过联合分布适应解决由输入差异引起的表示异质性。然后，我们介绍了模态融合任务的交叉翻译网络，以聚合恢复和可用的模态特征。它利用参数共享策略明确捕捉跨模态线索。在RGB-D分类和分割任务上的大量实验证明，提出的多模态继承框架可以克服各种场景中不完整模态输入的问题，并实现最先进的性能。

Sep, 2023

基于对比学习的光谱知识蒸馏在语义分割中的多模态和缺失模态场景下的应用

通过使用多光谱信息来提高语义分割模型的性能对于低光和恶劣环境至关重要。提出了一种名为CSK-Net的新型多模态融合方法，它利用对比学习为光学（EO）和红外（IR）图像的语义分割提供了基于光谱知识蒸馏的融合技术。该方法不仅在多模态任务上超过了现有的模型，而且在缺失模态的情况下，仅利用IR数据进行推断就能提高性能，而与基线分割模型相比，并没有额外的计算成本。

Dec, 2023

聚焦每种模态的价值：朝着高效和弹性的无模态语义分割

提出了一种名为MAGIC的新方法，通过多模态聚合模块和任意模态选择模块，灵活地配合各种主干网络，实现多模态语义分割并取得了最先进的性能，同时降低了模型参数60%。

Jul, 2024

ModalChorus: 多模态嵌入的视觉探测和对齐通过模态融合图

ModalChorus是一种用于视觉和语言多模态嵌入的交互式系统，通过Modal Fusion Map（MFM）嵌入探索和对齐，提高交叉模态特征表达和模型性能，适用于跨模态任务。

Jul, 2024

IVGF：融合引导的红外和可见光通用框架

本研究解决了当前红外和可见光双模态任务中框架通用性不足的问题。提出的IVGF框架通过结合最先进的基础模型、特征增强模块和注意力引导融合模块，显著提升了多任务的性能。实验表明，IVGF在语义分割和目标检测任务中超过了现有的双模态方法，展示了其广泛的应用潜力。

Sep, 2024