聚焦每种模态的价值:朝着高效和弹性的无模态语义分割
提出了一种自适应动态融合多模态语义分割框架,采用自监督模型的融合机制来优化融合多模态特征,在物体类别、空间位置和场景上下文方面增强鲁棒性,同时提出了一种计算高效的AdapNet ++单模分割体系结构,并获得了最新的性能。
Aug, 2018
本文提出了一种统一且高效的跨模态引导编码器,通过分离-聚合门技术,不仅可以有效地校准RGB特征响应,而且可以通过多个阶段和交替聚合两个重新校准的表示来提取准确的深度信息,同时引入双向多步传播策略来提高RGB-D语义分割性能.
Jul, 2020
本文提出了一种基于转换器的跨模态融合框架CMX,用于针对自主车辆的RGB-X语义分割,结果表明CMX可以推广到不同的感知模态,并实现在多个基准数据集上的最新技术性能。
Mar, 2022
利用多模态融合可以使语义分割更具鲁棒性,但是融合任意数量的模态仍未被探索,因此我们创建了DelIVER任意模态分割基准,并提供了四种恶劣天气条件和五种传感器故障情况的数据集,以利用模态互补性和解决局部故障。我们提出了交叉模态分割模型CMNeXt,它包含一个自查询中心设计来从任何模态中提取有效信息,并添加每增加一个模态只有可以忽略的参数量。在多项基准测试中,我们的方法在DelIVER,KITTI-360,MFNet,NYU Depth V2,UrbanLF和MCubeS数据集上均取得了最先进的性能。
Mar, 2023
提出一种简单且高效的多模态融合机制: 线性融合(Linear Fusion),通过半监督学习的方式提高了多模态语义分割的性能,并使模型对现实世界中缺失模态的情况更加健壮。
Apr, 2023
利用跨模态语义指导多模态特征的融合和解码,提出了一种新的方法以控制相对熵,具有共享和特定的表示法以及跨层自我监督,并基于质量适应模态贡献的 all-round attentive fusion 和 course-to-fine decoder 两部分解码器,提高特征可辨别性和系统的表现。
May, 2023
通过使用多光谱信息来提高语义分割模型的性能对于低光和恶劣环境至关重要。提出了一种名为CSK-Net的新型多模态融合方法,它利用对比学习为光学(EO)和红外(IR)图像的语义分割提供了基于光谱知识蒸馏的融合技术。该方法不仅在多模态任务上超过了现有的模型,而且在缺失模态的情况下,仅利用IR数据进行推断就能提高性能,而与基线分割模型相比,并没有额外的计算成本。
Dec, 2023
我们介绍了U3M:一种用于多模态语义分割的无偏多尺度模态融合模型,其通过有效提取和整合全局和局部特征,实现了在多个数据集上的优越性能,并证实了在各种环境中增强语义分割的鲁棒性和多样性。
May, 2024
通过从多模态视觉语言模型中进行知识蒸馏的方式,提出了一种新的学习无模态偏好表示的框架,该框架能够在任何视觉条件下结合任何模态并实现稳健的分割,实验证明其在多模态和模态不完整的情境下均达到了最先进水平。
Jul, 2024
本文解决了当前多模态语义分割方法在输入灵活性和训练参数数量上的限制。提出了一种名为StitchFusion的新框架,通过共享多模态视觉信息,实现了对任意视觉输入的综合特征融合。实验结果表明,该模型在四个多模态分割数据集上性能达到最先进水平,同时增加的参数极少。
Aug, 2024