RGB-Thermal 语义分割补偿随机遮蔽
我们提出了一种多模态混合损失方法(MMHL),并引入了混合融合模块,在 RGB 和热感特征融合时考虑了空间和通道信息。同时,我们实施了顺序训练策略,通过在第一阶段仅对 RGB 图像进行训练,然后学习跨模态特征,从而提高了显著性检测性能,而无需额外计算开销。性能评估和消融研究结果表明,与现有的最先进方法相比,该方法取得了卓越的性能。
Sep, 2023
本文提出了一种基于 Residual Spatial Fusion Network 的 RGB-Thermal 语义分割方法,通过采用不对称编码器和 Saliency Detection 生成伪标签来学习 RGB 和热成像的补偿特征,并通过使用 Residual Spatial Fusion (RSF) 模块来实现跨模态特征的空间融合,最终在 MFNet 数据库和 PST900 数据库上实现了最新的分割性能。
Jun, 2023
提出了一种非常简单的组合打乱多感受注意力(GSMA)模块,用于提取和结合多尺度 RGB 和热能特征,然后将提取的多模态特征直接集成到多级路径聚合网络中,显著改善了融合效果和效率,并通过多模态监督(MS)来充分监督 RGB-T 目标检测,实验证明该模型在保持竞争力的同时达到了最先进的准确性。
May, 2024
提出了一种自适应动态融合多模态语义分割框架,采用自监督模型的融合机制来优化融合多模态特征,在物体类别、空间位置和场景上下文方面增强鲁棒性,同时提出了一种计算高效的 AdapNet ++ 单模分割体系结构,并获得了最新的性能。
Aug, 2018
提出了一种用于 RGB-D 语义图像合成的多模态数据生成器,并通过鉴别器来确保标签图和生成图像之间的语义一致性及真实图像和生成图像之间的感知相似性,实验证明该方法在 RGB-D 语义分割方案中表现出了显著优势,以及通过在训练过程中混合真实图像和生成图像可以显著提高方案的准确性。
Aug, 2023
本研究提出利用跨模态蒸馏技术从大量无标签 RGB-TIR 数据中提炼 TIR 模态的目标表示,作为热红外追踪的优化方法,并利用 RGB 和 TIR 图像中的语义信息进行 “蒸馏损失” 的监督学习,成功地推广到 LSOTB-TIR 和 PTB-TIR 数据集中,比基线跟踪器的绝对增益显著。
Jul, 2021
本文提出了一种多模态语义分割模型,可以适用于日间和夜间场景,通过引入热成像技术和 RGB 照片,利用现有白天 RGB 数据集实现对夜间图像的学习,并提出了一个新的域对齐训练方法,在自动驾驶方面获得了最新的夜间语义分割结果。
Mar, 2020
夜间 RGB-T 语义分割中,我们提出了第一种测试时适应 (Night-TTA) 框架,以解决两个关键问题:1)RGB 图像的白天和夜晚差距大于热像图,2)夜间 RGB 图像的类别性能未必总是高于或低于热像图。通过 Imaging Heterogeneity Refinement (IHR) 和 Class Aware Refinement (CAR) 技术,以及特定的学习方案,我们的方法在 mIoU 上取得了 13.07% 的显著提升。
Jul, 2023
通过可见光图像和红外热图像的融合进行物体跟踪的 RGB-T 跟踪,通过交叉模态相互提示学习的新型两流 RGB-T 跟踪架构,将此模型作为教师指导单流学生模型,通过知识蒸馏技术实现快速学习,实验证明与类似的 RGB-T 跟踪器相比,我们设计的教师模型达到了最高的精确度,而具有相当精确度的学生模型实现了比教师模型快三倍以上的推理速度。
Mar, 2024
提出了一个自我监督学习框架中的视觉语言表示学习方法,引入了一种新的操作、损失和数据增强策略,其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征,然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域,提出了一个用于图像文本对比学习(ITC)目标的焦点损失,并进行多模态数据增强以进行自我监督学习。
Apr, 2023