May, 2024

任意模态显著目标检测的模态提示

TL;DR该论文研究了任意模态显著目标检测(AM SOD)的任务,旨在从任意模态(如 RGB 图像,RGB-D 图像和 RGB-D-T 图像)中检测显著对象。首先,提出了一种新颖的模态自适应 Transformer(MAT)来解决 AM SOD 中的两个基本挑战,即需要处理不同模态类型引起的更多多样化模态差异以及由多模态融合策略输入中不确定的模态数量引起的动态融合设计。其次,通过学习一些提示,MAT 首先提出了模态适应特征提取器(MAFE)来处理多样化模态差异,为每种模态引入一个模态提示。接着,MAFE 采用新的模态转换收缩(MTC)损失在训练阶段进一步设计,以帮助 MAFE 学习那些模态可区分的模态提示。然后,MAFE 通过通道级和空间级融合混合(CSFH)策略满足动态融合的需求,其中 CSFH 使用通道级动态融合模块(CDFM)和新颖的空间级动态融合模块(SDFM)来融合不同数量的模态的单模态特征,同时有效捕捉跨模态互补的语义和细节信息。此外,CSFH 根据它们的特点,将 CDFM 和 SDFM 与不同级别的单模态特征进行精确对齐,以更有效地利用互补信息。