IVGF:融合引导的红外和可见光通用框架
利用多模态融合可以使语义分割更具鲁棒性,但是融合任意数量的模态仍未被探索,因此我们创建了DelIVER任意模态分割基准,并提供了四种恶劣天气条件和五种传感器故障情况的数据集,以利用模态互补性和解决局部故障。我们提出了交叉模态分割模型CMNeXt,它包含一个自查询中心设计来从任何模态中提取有效信息,并添加每增加一个模态只有可以忽略的参数量。在多项基准测试中,我们的方法在DelIVER,KITTI-360,MFNet,NYU Depth V2,UrbanLF和MCubeS数据集上均取得了最先进的性能。
Mar, 2023
本文提出一种基于红外和可见光图像的交互式多任务范式,通过特征筛选的融合子网和融合引导的交叉互补SOD子网相结合,进行物体定位和探测,同时提出交互式循环学习策略,以实现这两个任务的互相增强,取得了显著的效果。
May, 2023
本研究提出了一种基于文本引导的多模态图像融合方法,利用文本描述的高级语义结合红外和可见光图像的语义信息,为目标检测任务提供了更准确和鲁棒的结果。通过使用代码本来增强对融合动态的简明直观表达,并通过双层优化策略同时优化融合和检测问题,本研究取得了与现有方法相比更高的检测平均精度和视觉上优越的融合结果。
Dec, 2023
本文提出了一种基于自然语言表达目标、利用语言表达优势以提高图像融合性能的语言驱动融合模型。通过将相关文本编码为多模态嵌入空间,建立嵌入向量之间的关系表示融合目标和输入图像模态,并通过监督训练导出一种基于语言驱动的损失函数,使实际红外-可见图像融合与嵌入式语言驱动融合模型保持一致。实验证明,该方法比现有技术能够获得更好的融合结果。
Feb, 2024
基于双模性策略的先验语义引导图像融合方法提供了在智能交通系统中提高红外和可见光图像融合性能的新途径,通过设计并应用两个并行的语义分割支路和一种自适应调制机制,捕捉和整合了两个图像的重要的先验语义信息,并通过多级表示自适应融合模块进一步整合高层语义和细节,优于现有图像融合方法。
Mar, 2024
本研究提出了一种用于高光谱图像和X模态图像分类的Local-to-Global Cross-modal Attention-aware Fusion (LoGoCAF)框架,通过像素级的两分支语义分割架构从两种模态中学习信息并进行特征融合和预测,实现了优秀的性能和普适性。
Jun, 2024
通过建模相关性驱动分解特征和推理高级图表示以高效地提取互补特征和多引导特征聚合,本论文提出了一个三分支编码器-解码器体系结构以及相应的融合层作为融合策略,用于多模态图像融合,并介绍了图推理模块以推理高级跨模态关系和同时从CAI的特定模态补充信息中提取低级细节特征。实验证明,我们的方法在可见/红外图像融合和医学图像融合任务中取得了与最先进方法相媲美的结果,并且在后续任务中超过了其他融合方法,平均得分在物体检测方面高出9.78% [email protected],语义分割方面高出6.46% mIoU。
Jun, 2024
通过从多模态视觉语言模型中进行知识蒸馏的方式,提出了一种新的学习无模态偏好表示的框架,该框架能够在任何视觉条件下结合任何模态并实现稳健的分割,实验证明其在多模态和模态不完整的情境下均达到了最先进水平。
Jul, 2024
本研究解决了现有多模态显著目标检测方法在有限数据条件下难以达到最佳性能的问题。提出了一种新颖的框架,将预训练的“任何事物分割模型”与多模态特征融合相结合,推动其在复杂场景中的显著目标检测能力。研究结果表明,该框架在RGB-D和RGB-T显著目标检测基准测试上表现出显著效果,展示了其实际应用潜力。
Aug, 2024
本研究针对现有多模态显著物体检测方法因数据限制而难以达到最佳效果的问题,提出了一种新颖的框架,利用预训练的Segment Anything Model(SAM)进行特征表示和零-shot泛化。通过引入多模态互补融合模块和语义几何提示生成策略,实现了SAM在多模态显著性预测中的有效适配,实验表明该方法在RGB-D和RGB-T显著物体检测基准测试中表现优异。
Aug, 2024