任意模态显著目标检测的模态提示

May, 2024

任意模态显著目标检测的模态提示

Modality Prompts for Arbitrary Modality Salient Object Detection

Nianchang Huang, Yang Yang, Qiang Zhang, Jungong Han, Jin Huang

TL;DR该论文研究了任意模态显著目标检测（AM SOD）的任务，旨在从任意模态（如 RGB 图像，RGB-D 图像和 RGB-D-T 图像）中检测显著对象。首先，提出了一种新颖的模态自适应 Transformer（MAT）来解决 AM SOD 中的两个基本挑战，即需要处理不同模态类型引起的更多多样化模态差异以及由多模态融合策略输入中不确定的模态数量引起的动态融合设计。其次，通过学习一些提示，MAT 首先提出了模态适应特征提取器（MAFE）来处理多样化模态差异，为每种模态引入一个模态提示。接着，MAFE 采用新的模态转换收缩（MTC）损失在训练阶段进一步设计，以帮助 MAFE 学习那些模态可区分的模态提示。然后，MAFE 通过通道级和空间级融合混合（CSFH）策略满足动态融合的需求，其中 CSFH 使用通道级动态融合模块（CDFM）和新颖的空间级动态融合模块（SDFM）来融合不同数量的模态的单模态特征，同时有效捕捉跨模态互补的语义和细节信息。此外，CSFH 根据它们的特点，将 CDFM 和 SDFM 与不同级别的单模态特征进行精确对齐，以更有效地利用互补信息。

Abstract

This paper delves into the task of arbitrary modality salient object detection (AM SOD), aiming to detect salient objects from arbitrary modalities, eg RGB images, RGB-D images, and RGB-D-T images. A novel modality-adaptive Transformer (MAT) will be proposed to investigate two fundamental challenges of AM SOD, ie more diverse →

arbitrary modality salient object detection modality-adaptive transformer modality discrepancies multimodal fusion strategy dynamic fusion

发现论文，激发创造

任意模式的显著目标检测

为了达到理想的显著性预测，我们提出了一种新的显著目标检测任务，被称为任意模态显著目标检测（AM SOD）。我们设计了一个调制切换网络（MSN），包括调制切换特征提取器（MSFE）和动态融合模块（DFM），用于有效地从不同模态提取鉴别特征，并自适应地融合来自不同模态的特征。此外，我们构建了一个名为 AM-XD 的新数据集，以促进对 AM SOD 的研究。广泛的实验证明，我们的方法可以有效地处理输入模态的类型和数量变化，实现鲁棒的显著目标检测。

May, 2024

自适应提示学习的统一模态突出目标检测

用统一的框架 UniSOD 来处理单模态和多模态显著目标检测任务，通过自适应提示学习生成模态感知提示，并将其插入到预训练基准模型中处理相应的任务，同时与训练整个模型相比，只需要较少的可学习参数，取得了对 RGB、RGB-D 和 RGB-T SOD 任务的一致性性能提升。

Nov, 2023

跨模态调制与选择的 RGB-D 显著性目标检测

本文提出了一个名为 cmMS block 的模块，结合了 cross-modality feature modulation、adaptive feature selection 和 saliency-guided position-edge attention，可以逐步整合和完善 RGB-D 显著性检测中的交叉模态补充关系，有效提高了精度表现。

Jul, 2020

保留特异性的 RGB-D 显著性检测

该研究提出了一种称为 SPNet 的新框架，它通过探索共享信息和特定性质（如特定性）来受益于 SOD 性能，并采用双模态特定网络和共同学习网络来生成单独的和共享的显着性预测地图，分别。此外，为了捕获丰富的互补多模态信息以提高 SOD 性能，该研究还提出了一种多模态特征聚合（MFA）模块。

Aug, 2021

学习自适应融合模型以进行多模态显著目标检测

多模态显著目标检测 (MSOD) 通过将可见资源与深度或热红外资源整合，旨在提高显著性检测的性能。本文提出了一种新颖的自适应融合模块，利用一组基本融合方案的互补优势来同时处理不同挑战，以实现鲁棒的 MSOD。通过实验证明，该方法在多个数据集上相较于最先进的方法取得了卓越的性能。

Jun, 2024

基于 CNN 的 RGB-D 显著目标检测：学习、选择和融合

该论文旨在提出一个系统性的解决方案来解决 RGB-D 突出物检测问题，该方案通过模态特定表示学习、互补线索选择和跨模态补充融合等三个方面进行统一的处理，并构建了一种自适应的残差函数来融合跨模态信息以实现足够的跨模态交互和跨层传输支持。

Sep, 2019

深度敏感关注和自动多模态融合的 RGB-D 显著性检测

本文提出了一种深度敏感的 RGB 特征建模方案，并使用深度几何先验来实现特征增强和背景分心减少。另外，我们还提出了一种自动架构搜索方法来进行 RGB-D 显着对象检测，取得了比现有技术更好的结果。

Mar, 2021

基于元学习的跨模态提示的多模态小样本目标检测

本文介绍了一种基于多模态少样本学习的目标检测方法，使用视觉样本和分类语义信息来检测目标，通过元学习和提示学习相结合，在不需要微调的情况下建立通用少 / 零样本检测模型，同时引入知识蒸馏来解决针对稀有类别缺乏类名称先验知识的问题，通过在多个少样本数据集上的实验来验证该方法的有效性。

Apr, 2022

RGB-D 视频中的显著目标检测

通过构建 RDVS 数据集和引入 DCTNet+，本文在 RGB-D 视频中进行了显著目标检测，通过使用多模态注意力模块实现了多模态特征的增强与融合，实验结果表明 DCTNet + 在 17 个 VSOD 模型和 14 个 RGB-D SOD 模型中表现优越。

Oct, 2023

面向 RGB-D 显著性目标检测的分层动态滤波网络

本文提出了一种新的动态扩张金字塔模块和混合增强损失函数，在 RGB-D 显著目标检测方面表现优于现有方法。

Jul, 2020