基于视觉为中心的多模态专业知识在 3D 目标检测中的应用

Oct, 2023

基于视觉为中心的多模态专业知识在 3D 目标检测中的应用

Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection

Linyan Huang, Zhiqi Li, Chonghao Sima, Wenhai Wang, Jingdong Wang...

TL;DR通过 VCD 框架，引入了学徒友好的多模态专家和时序融合友好的蒸馏监督，改善了仅相机学徒模型，并在 nuScenes 上取得了 63.1％ NDS 的最新性能。

Abstract

Current research is primarily dedicated to advancing the accuracy of camera-only 3d object detectors (apprentice) through the knowledge transferred from lidar- or →

camera-only 3d object detectors lidar multi-modal-based counterparts domain gap temporal fusion

发现论文，激发创造

跨模态、任务和阶段的知识蒸馏：用于多摄像头三维物体检测的方法

本文提出 X^3KD，一种基于多模态、多任务、多阶段的知识蒸馏框架，通过跨任务蒸馏、跨模态特征蒸馏、对抗训练以及跨模态输出蒸馏等方式，改进了基于多摄像头图像的 3D 物体检测模型性能，最终 X^3KD 模型在 nuScenes 和 Waymo 数据集上取得了最新的最佳性能表现，并且具有推广到基于雷达的 3D 物体检测的能力。

Mar, 2023

DistillBEV：利用跨模态知识蒸馏提升多摄像头三维目标检测

通过训练基于多视角鸟瞰图（BEV）的学生检测器来模仿经过训练的基于 LiDAR 的教师检测器的特征，从而提高多视角 BEV 的表示学习，并通过有效的平衡策略和多尺度层的时间融合实现知识传输，实验证明该方法在多个多视角 BEV 模型上显著改善了学生模型，达到了流行基准 nuScenes 的最新性能。

Sep, 2023

通过在点云上模拟多模态来增强三维物体检测

该研究提出一种新的方法，通过教会单模（LiDAR）三维目标探测器模拟多模（LiDAR 图像）探测器的特征和响应来提高其效率，从而实现在推断时只需要 LiDAR 数据的目标识别，经过实验，这种方法在性能上优于所有 SOTA 的 LiDAR-only 3D 检测器，甚至超越了基线 LiDAR-image 检测器，填补了单模与多模检测器之间的 72％mAP 差距。

Jun, 2022

单目 3D 物体检测的跨模态知识蒸馏网络

本研究提出了一种基于 Cross-Modality Knowledge Distillation (CMKD) 的半监督训练框架，通过跨模态知识蒸馏能够从大规模未标记数据中有效传输 LiDAR 模态到图像模态的知识，从而显著提高单目三维检测性能，使得该方法在 KITTI 测试集和 Waymo 验证集上的表现明显优于先前最先进的方法。

Nov, 2022

结构化知识蒸馏方法实现高效紧凑的多视角三维检测

本论文提出了一种基于结构化知识蒸馏的框架，旨在提高现代视觉仅 BEV 检测模型的效率，并在 nuScenes 基准测试上表现出显著的优越性，平均改善 2.16mAP 和 2.27NDS。

Nov, 2022

基于 3D 增强的对比知识蒸馏，用于基于图像的物体位姿估计

该研究论文提出了一种基于图像的物体姿态估计方法，利用多模态方法学习的 3D 知识通过对比知识蒸馏框架有效地转移给单模态模型，使其在没有 3D 信息的情况下提升物体姿态估计准确率，实验证明了该方法的有效性。

Jun, 2022

MonoTAKD: 单目三维目标检测的助教知识蒸馏

通过使用单目摄像头传感器进行教学助理知识蒸馏（MonoTAKD），结合了对于 3D 场景几何形状的理解与从单张图像中重构 3D 对象信息，实现了在 KITTI 3D 对象检测基准中的标杆性能。

Apr, 2024

基于目标的跨模态特征蒸馏的事件型物体检测

我们提出了一种新颖的知识蒸馏方法，通过使用面向对象的槽注意机制来改善事件相机的实时目标检测性能，减小与 RGB 检测器之间的性能差距。

Nov, 2023

自我中心行为识别的多模态蒸馏

本文研究了如何在仅使用 RGB 帧作为输入的情况下，保持多模态方法的性能表现，进而采用多模型知识蒸馏框架来处理这个问题，并在输入视角数量减少的情况下展示了更高的性能。

Jul, 2023

自动驾驶中的无监督 3D 感知与 2D 视觉语言蒸馏

本文介绍了一种多模态自动标注流程，可以生成用于训练开放式类别的无标注 3D 边界框和轨迹，从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究，我们的方法可以以无监督的方式处理静态和移动的对象，并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明，我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。

Sep, 2023