MLF-DET: 跨模态三维物体检测的多层融合

Jul, 2023

MLF-DET: 跨模态三维物体检测的多层融合

MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection

Zewei Lin, Yanqing Shen, Sanping Zhou, Shitao Chen, Nanning Zheng

TL;DR本文提出了一种名为 MLF-DET 的新颖有效的多级融合网络，用于高性能跨模态 3D 物体检测，它将特征级融合和决策级融合相结合，充分利用图像中的信息。

Abstract

In this paper, we propose a novel and effective multi-level fusion network, named as MLF-DET, for high-performance cross-modal 3d object detection, which integrates both the feature-level fusion and decision-leve

multi-level fusion network cross-modal 3d object detection multi-scale voxel image fusion feature-cued confidence rectification occlusion-aware gt sampling

发现论文，激发创造

mmFUSION: 三维物体检测的多模态融合

提出一种新的中级多模态融合（mmFUSION）方法，通过分别计算每种模态的特征并通过交叉模态和多模态注意机制进行融合，实现了精确的自动驾驶系统中的三维目标检测。

Nov, 2023

用于自动驾驶的多视角三维物体检测网络

该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks（MV3D）框架，该框架采用多传感器融合技术，将 LIDAR 点云和 RGB 图像作为输入，并预测有方向的 3D 界限框。实验表明，该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25％和 30％，在 2D 检测中也表现出显著的技术优势。

Nov, 2016

MAFF-Net：使用多模式自适应特征融合过滤 3D 车辆检测的误报

本文提出了一种基于多模态融合的三维车辆检测方法，使用图像信息有效降低了假阳性，具有快速检测速度；通过基于通道注意力机制的多模态自适应特征融合模块，实现了对不同模态特征的自适应调节和融合技术的适应性，实验结果表明该方法能够过滤掉更多的假阳性，并在 KITTI 基准测试中获得了最快速度和更好的性能。

Sep, 2020

多模态多层次融合的三维单目标跟踪

提出 MMF-Track，一种多模态多级融合跟踪器，利用点云的几何和图像纹理特征跟踪 3D 目标，在 KITTI 上实现了最先进的性能表现，并在 NuScenes 上具有竞争力。

May, 2023

用于 3D 目标检测的密集体素融合

提出了基于 Dense Voxel Fusion 的序列融合方法，该方法对于自主车辆应用中的 3D 物体检测具有重要意义。通过直接使用地面真实 3D 边界框标签进行训练，避免使用嘈杂的、特定于检测器的 2D 预测。DVF 在 KITTI 3D 汽车检测基准测试中排名第三，且不引入额外的可训练参数，也不需要使用立体图像或密集深度标签。此外，在 Waymo 开放数据集上，DVF 显著提高了基于体素的方法在 3D 车辆检测方面的性能。

Mar, 2022

一个广义的多模型融合检测框架

本文提出了一种名为 MMFusion 的多模态 3D 检测框架，以在复杂场景中实现 LiDAR 和图像的准确融合，通过实验证明，该框架不仅优于现有基准，而且尤其适用于在 KITTI 基准上检测骑自行车和行人。

Mar, 2023

三维物体检测的同质多模态特征融合与交互

本研究提出了一种基于均质结构和自注意力机制的多模态特征融合和交互方法，通过将相机特征转换为 LiDAR 3D 空间，在避免项目信息丢失的同时增强了在复杂背景下的鉴别能力，在 KITTI 基准中超越了所有已发表的算法。

Oct, 2022

MDFN: 目标检测的多尺度深度特征学习网络

本文提出了一种基于深度学习的多尺度特征学习技术来解决物体检测问题，通过使用深层次的抽象特征来提高模型对语义信息的理解和处理能力，同时采用多框，多量级等技术提高模型的检测精度与计算效率。实验证明该模型在 KITTI，PASCAL VOC 和 COCO 数据集上表现优异。

Dec, 2019

VPFNet：基于体素像素融合的多类三维物体检测网络

本论文提出了一种基于深度学习的融合多类三维物体检测网络，使用 Voxel-Pixel 融合层将激光雷达和相机传感器数据流进行联合，此方法在 KITTI 基准测试中表现优异，排名第一。

Nov, 2021

多模态大语言模型下的上下文目标检测

本文介绍了一个名为 ContextDET 的多模态模型，该模型解决了现有的 MLLMs 在物体检测方面的局限性，可以对人机交互中的视觉单元进行定位、识别和分配，意义重大。

May, 2023