基于视觉为中心的多模态专业知识在 3D 目标检测中的应用
本文提出 X^3KD,一种基于多模态、多任务、多阶段的知识蒸馏框架,通过跨任务蒸馏、跨模态特征蒸馏、对抗训练以及跨模态输出蒸馏等方式,改进了基于多摄像头图像的 3D 物体检测模型性能,最终 X^3KD 模型在 nuScenes 和 Waymo 数据集上取得了最新的最佳性能表现,并且具有推广到基于雷达的 3D 物体检测的能力。
Mar, 2023
通过训练基于多视角鸟瞰图(BEV)的学生检测器来模仿经过训练的基于 LiDAR 的教师检测器的特征,从而提高多视角 BEV 的表示学习,并通过有效的平衡策略和多尺度层的时间融合实现知识传输,实验证明该方法在多个多视角 BEV 模型上显著改善了学生模型,达到了流行基准 nuScenes 的最新性能。
Sep, 2023
该研究提出一种新的方法,通过教会单模(LiDAR)三维目标探测器模拟多模(LiDAR 图像)探测器的特征和响应来提高其效率,从而实现在推断时只需要 LiDAR 数据的目标识别,经过实验,这种方法在性能上优于所有 SOTA 的 LiDAR-only 3D 检测器,甚至超越了基线 LiDAR-image 检测器,填补了单模与多模检测器之间的 72%mAP 差距。
Jun, 2022
本研究提出了一种基于 Cross-Modality Knowledge Distillation (CMKD) 的半监督训练框架,通过跨模态知识蒸馏能够从大规模未标记数据中有效传输 LiDAR 模态到图像模态的知识,从而显著提高单目三维检测性能,使得该方法在 KITTI 测试集和 Waymo 验证集上的表现明显优于先前最先进的方法。
Nov, 2022
本论文提出了一种基于结构化知识蒸馏的框架,旨在提高现代视觉仅 BEV 检测模型的效率,并在 nuScenes 基准测试上表现出显著的优越性,平均改善 2.16mAP 和 2.27NDS。
Nov, 2022
该研究论文提出了一种基于图像的物体姿态估计方法,利用多模态方法学习的 3D 知识通过对比知识蒸馏框架有效地转移给单模态模型,使其在没有 3D 信息的情况下提升物体姿态估计准确率,实验证明了该方法的有效性。
Jun, 2022
通过使用单目摄像头传感器进行教学助理知识蒸馏(MonoTAKD),结合了对于 3D 场景几何形状的理解与从单张图像中重构 3D 对象信息,实现了在 KITTI 3D 对象检测基准中的标杆性能。
Apr, 2024
本文研究了如何在仅使用 RGB 帧作为输入的情况下,保持多模态方法的性能表现,进而采用多模型知识蒸馏框架来处理这个问题,并在输入视角数量减少的情况下展示了更高的性能。
Jul, 2023
本文介绍了一种多模态自动标注流程,可以生成用于训练开放式类别的无标注 3D 边界框和轨迹,从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究,我们的方法可以以无监督的方式处理静态和移动的对象,并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明,我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。
Sep, 2023