StitchFusion：编织任意视觉模态以增强多模态语义分割

Aug, 2024

StitchFusion：编织任意视觉模态以增强多模态语义分割

StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

Bingyu Li, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li

TL;DR本文解决了当前多模态语义分割方法在输入灵活性和训练参数数量上的限制。提出了一种名为StitchFusion的新框架，通过共享多模态视觉信息，实现了对任意视觉输入的综合特征融合。实验结果表明，该模型在四个多模态分割数据集上性能达到最先进水平，同时增加的参数极少。

Abstract

Multimodal semantic segmentation shows significant potential for enhancing segmentation accuracy in complex scenes. However, current methods often incorporate specialized Feature Fusion modules tailored to specific modalities, thereby restricting input flexibility and increasing the nu

发现论文，激发创造

多模态语义分割的自监督模型适应

提出了一种自适应动态融合多模态语义分割框架，采用自监督模型的融合机制来优化融合多模态特征，在物体类别、空间位置和场景上下文方面增强鲁棒性，同时提出了一种计算高效的AdapNet ++单模分割体系结构，并获得了最新的性能。

Aug, 2018

视觉Transformer的多模态Token融合

本文提出了一个针对基于Transformer的视觉任务的多模态令牌融合方法（TokenFusion），可以在保持单模态Transformer结构基本不变的同时，学习多模态特征之间的相关性，并超越三个典型视觉任务中的最先进方法。

Apr, 2022

递送任意模态的语义分割

利用多模态融合可以使语义分割更具鲁棒性，但是融合任意数量的模态仍未被探索，因此我们创建了DelIVER任意模态分割基准，并提供了四种恶劣天气条件和五种传感器故障情况的数据集，以利用模态互补性和解决局部故障。我们提出了交叉模态分割模型CMNeXt，它包含一个自查询中心设计来从任何模态中提取有效信息，并添加每增加一个模态只有可以忽略的参数量。在多项基准测试中，我们的方法在DelIVER，KITTI-360，MFNet，NYU Depth V2，UrbanLF和MCubeS数据集上均取得了最先进的性能。

Mar, 2023

通过挖掘跨模态语义实现目标分割

利用跨模态语义指导多模态特征的融合和解码，提出了一种新的方法以控制相对熵，具有共享和特定的表示法以及跨层自我监督，并基于质量适应模态贡献的 all-round attentive fusion 和 course-to-fine decoder 两部分解码器，提高特征可辨别性和系统的表现。

May, 2023

MixReorg：跨模态混合 Patch 重组是开放世界语义分割的良好掩膜学习器

最近，在具有图像级文本监督训练的语义分割模型中，在具有挑战性的开放世界场景中展示出了有希望的结果。然而，这些模型仍然面临在像素级学习细粒度语义对齐和预测准确的对象掩码方面的困难。为了解决这个问题，我们提出了MixReorg，这是一种用于语义分割的新颖而直接的预训练范例，它增强了模型在重新组织混合在图像中的补丁时的能力，探索局部视觉相关性和全局语义连贯性。我们的方法涉及通过混合图像补丁生成细粒度的补丁-文本对数据，同时保留补丁和文本之间的对应关系。然后，该模型被训练以最小化混合图像的分割损失和原始和恢复特征的两个对比损失。作为掩码学习器，MixReorg可以使传统的文本监督语义分割模型具有高度可概括的像素-语义对齐能力，这对于开放世界分割至关重要。在使用大规模的图像-文本数据训练后，MixReorg模型可以直接应用于分割任意类别的视觉对象，无需进一步的微调。我们提出的框架在流行的零样本语义分割基准上展示出强大的性能，在PASCAL VOC2012、PASCAL Context、MS COCO和ADE20K上的mIoU分别优于GroupViT的5.0%、6.2%、2.5%和3.4%。

Aug, 2023

U3M: 多模态语义分割的无偏多尺度模态融合模型

我们介绍了U3M：一种用于多模态语义分割的无偏多尺度模态融合模型，其通过有效提取和整合全局和局部特征，实现了在多个数据集上的优越性能，并证实了在各种环境中增强语义分割的鲁棒性和多样性。

May, 2024

GeminiFusion: 高效按像素多模态融合的视觉Transformer

跨模态变换器已经在不同的视觉任务中展示了优越性能，本文提出了一种像素级融合方法GeminiFusion，它通过融合模态内部关注和模态间关注，动态地整合跨模态的互补信息，同时通过层自适应噪声实现了协调的融合过程，该方法在多模态图像转换、三维物体检测和任意模态的语义分割任务中表现出优秀的性能。

Jun, 2024

DenseFusion-1M：融合多种视觉专家的全面多模态感知

用于综合视觉感知的感知融合引擎Perceptual Fusion与密集描述生成引擎DenseFusion-1M结合，从未筛选过的LAION数据集选择了100万张高度代表性的图片，生成了密集描述数据集，通过Perceptual Fusion提供了显式的视觉元素的信息和高效的MLLM实现高级视觉感知能力，验证实验表明该引擎相比其竞争对手在各种视觉-语言基准测试中显著改善了现有MLLM的感知和认知能力。

Jul, 2024

学习模态无关的语义分割表示

通过从多模态视觉语言模型中进行知识蒸馏的方式，提出了一种新的学习无模态偏好表示的框架，该框架能够在任何视觉条件下结合任何模态并实现稳健的分割，实验证明其在多模态和模态不完整的情境下均达到了最先进水平。

Jul, 2024

阶段划分的视觉与语言变换器编码器的交叉感知早期融合用于参考图像分割

本研究解决了引用图像分割中复杂和模糊语言表达的理解及相关区域识别的挑战。提出了交叉感知早期融合框架，允许视觉和语言编码器在各阶段互相引用信息，从而增强跨模态上下文建模能力。实验表明，该方法在三个公共基准测试中都优于现有的最先进技术。

Aug, 2024