多模态多层次融合的三维单目标跟踪

May, 2023

多模态多层次融合的三维单目标跟踪

Multi-modal Multi-level Fusion for 3D Single Object Tracking

Zhiheng Li, Yubo Cui, Zuoxu Gu, Zheng Fang

TL;DR提出 MMF-Track，一种多模态多级融合跟踪器，利用点云的几何和图像纹理特征跟踪 3D 目标，在 KITTI 上实现了最先进的性能表现，并在 NuScenes 上具有竞争力。

Abstract

3D single object tracking plays a crucial role in computer vision. Mainstream methods mainly rely on point clouds to achieve geometry matching between target template and search area. However, textureless and incomplete point clouds make it difficult for single-modal trackers to distin

3d object tracking multi-modal multi-level fusion tracker geometry matching feature interaction similarity fusion

发现论文，激发创造

一个广义的多模型融合检测框架

本文提出了一种名为 MMFusion 的多模态 3D 检测框架，以在复杂场景中实现 LiDAR 和图像的准确融合，通过实验证明，该框架不仅优于现有基准，而且尤其适用于在 KITTI 基准上检测骑自行车和行人。

Mar, 2023

mmFUSION: 三维物体检测的多模态融合

提出一种新的中级多模态融合（mmFUSION）方法，通过分别计算每种模态的特征并通过交叉模态和多模态注意机制进行融合，实现了精确的自动驾驶系统中的三维目标检测。

Nov, 2023

三维物体检测的同质多模态特征融合与交互

本研究提出了一种基于均质结构和自注意力机制的多模态特征融合和交互方法，通过将相机特征转换为 LiDAR 3D 空间，在避免项目信息丢失的同时增强了在复杂背景下的鉴别能力，在 KITTI 基准中超越了所有已发表的算法。

Oct, 2022

多焦点与多模态之间的桥梁：多模态图像融合的聚焦集成框架

在本文中，我们提出了一种多模态图像融合（MMIF）框架，旨在解决多个可见光图像与红外图像的焦点区域不同的融合问题。通过引入半稀疏平滑滤波器对图像进行分解为结构和纹理成分，并提出了一种新的多尺度操作器对纹理成分进行融合。同时，我们考虑结构成分中能量信息的分布，以实现场景亮度的有效捕捉和合理的对比度维持。实验结果表明，该算法在视觉感知和数量化评估方面均优于现有的方法。

Nov, 2023

MLF-DET: 跨模态三维物体检测的多层融合

本文提出了一种名为 MLF-DET 的新颖有效的多级融合网络，用于高性能跨模态 3D 物体检测，它将特征级融合和决策级融合相结合，充分利用图像中的信息。

Jul, 2023

MAFF-Net：使用多模式自适应特征融合过滤 3D 车辆检测的误报

本文提出了一种基于多模态融合的三维车辆检测方法，使用图像信息有效降低了假阳性，具有快速检测速度；通过基于通道注意力机制的多模态自适应特征融合模块，实现了对不同模态特征的自适应调节和融合技术的适应性，实验结果表明该方法能够过滤掉更多的假阳性，并在 KITTI 基准测试中获得了最快速度和更好的性能。

Sep, 2020

通过盒匹配实现多模式三维物体检测

本论文提出了一种用于自动驾驶场景中多模态三维物体检测的新型融合网络 FBMNet，其通过在边界框级别上学习对应关系以自由化校准依赖，从而提供了一种用于跨模态特征对齐的替代方法。在 nuScenes 数据集上的实验表明，该方法比现有融合方法更加稳定有效，适用于异步传感器、错位传感器放置和退化相机图像等复杂情况，为实现自动驾驶场景中安全而提供了一种可行解决方案。

May, 2023

MM-Point：多视图信息增强的多模态自监督 3D 点云理解

提出一种新颖的自监督点云表示学习方法 MM-Point，通过多模态交互和传输同时处理三维物体和多个二维视图之间的一致跨模态目标，以及通过多个 MLP 和多层次增强策略来更有效地实现二维多视图信息的一致性对比学习，进一步学习了二维多视图的多层次不变性。MM-Point 在各种下游任务中展现出最先进的性能，如在合成数据集 ModelNet40 上达到了 92.4% 的峰值准确率，在真实数据集 ScanObjectNN 上达到了 87.8% 的最高准确率，与全监督方法可媲美。此外，我们还展示了它在少样本分类、三维部分分割和三维语义分割等任务中的有效性。

Feb, 2024

MVX-Net: 基于多模态 VoxcelNet 的三维物体检测

该研究提出了两种简单而有效的融合 RGB 和点云模态的早期融合方法，称为 PointFusion 和 VoxelFusion，并利用 VoxelNet 结构来结合这些模态，从而实现与最先进的多模态算法竞争力相当的表现，其能够在 KITTI 基准测试的五个车顶俯视图和 3D 检测类别中实现前两名的排名。

Apr, 2019

跨模式目标跟踪通过模态感知融合网络和大规模数据集

提出了一种自适应跨模态目标跟踪算法 Modality-Aware Fusion Network（MAFNet），它通过自适应加权机制有效地整合 RGB 和近红外模态的信息，弥合了外观差距，实现了模态感知的目标表示。

Dec, 2023