多模态多层次融合的三维单目标跟踪
本文提出了一种名为 MMFusion 的多模态 3D 检测框架,以在复杂场景中实现 LiDAR 和图像的准确融合,通过实验证明,该框架不仅优于现有基准,而且尤其适用于在 KITTI 基准上检测骑自行车和行人。
Mar, 2023
提出一种新的中级多模态融合(mmFUSION)方法,通过分别计算每种模态的特征并通过交叉模态和多模态注意机制进行融合,实现了精确的自动驾驶系统中的三维目标检测。
Nov, 2023
本研究提出了一种基于均质结构和自注意力机制的多模态特征融合和交互方法,通过将相机特征转换为 LiDAR 3D 空间,在避免项目信息丢失的同时增强了在复杂背景下的鉴别能力,在 KITTI 基准中超越了所有已发表的算法。
Oct, 2022
在本文中,我们提出了一种多模态图像融合(MMIF)框架,旨在解决多个可见光图像与红外图像的焦点区域不同的融合问题。通过引入半稀疏平滑滤波器对图像进行分解为结构和纹理成分,并提出了一种新的多尺度操作器对纹理成分进行融合。同时,我们考虑结构成分中能量信息的分布,以实现场景亮度的有效捕捉和合理的对比度维持。实验结果表明,该算法在视觉感知和数量化评估方面均优于现有的方法。
Nov, 2023
本文提出了一种名为 MLF-DET 的新颖有效的多级融合网络,用于高性能跨模态 3D 物体检测,它将特征级融合和决策级融合相结合,充分利用图像中的信息。
Jul, 2023
本文提出了一种基于多模态融合的三维车辆检测方法,使用图像信息有效降低了假阳性,具有快速检测速度;通过基于通道注意力机制的多模态自适应特征融合模块,实现了对不同模态特征的自适应调节和融合技术的适应性,实验结果表明该方法能够过滤掉更多的假阳性,并在 KITTI 基准测试中获得了最快速度和更好的性能。
Sep, 2020
本论文提出了一种用于自动驾驶场景中多模态三维物体检测的新型融合网络 FBMNet,其通过在边界框级别上学习对应关系以自由化校准依赖,从而提供了一种用于跨模态特征对齐的替代方法。在 nuScenes 数据集上的实验表明,该方法比现有融合方法更加稳定有效,适用于异步传感器、错位传感器放置和退化相机图像等复杂情况,为实现自动驾驶场景中安全而提供了一种可行解决方案。
May, 2023
提出一种新颖的自监督点云表示学习方法 MM-Point,通过多模态交互和传输同时处理三维物体和多个二维视图之间的一致跨模态目标,以及通过多个 MLP 和多层次增强策略来更有效地实现二维多视图信息的一致性对比学习,进一步学习了二维多视图的多层次不变性。MM-Point 在各种下游任务中展现出最先进的性能,如在合成数据集 ModelNet40 上达到了 92.4% 的峰值准确率,在真实数据集 ScanObjectNN 上达到了 87.8% 的最高准确率,与全监督方法可媲美。此外,我们还展示了它在少样本分类、三维部分分割和三维语义分割等任务中的有效性。
Feb, 2024
该研究提出了两种简单而有效的融合 RGB 和点云模态的早期融合方法,称为 PointFusion 和 VoxelFusion,并利用 VoxelNet 结构来结合这些模态,从而实现与最先进的多模态算法竞争力相当的表现,其能够在 KITTI 基准测试的五个车顶俯视图和 3D 检测类别中实现前两名的排名。
Apr, 2019
提出了一种自适应跨模态目标跟踪算法 Modality-Aware Fusion Network(MAFNet),它通过自适应加权机制有效地整合 RGB 和近红外模态的信息,弥合了外观差距,实现了模态感知的目标表示。
Dec, 2023