多帧到单帧:用于三维物体检测的知识蒸馏
本文章提出了一种使用知识蒸馏技术开发高效 3D 物体检测器的方法,并在输入分辨率降低和模型压缩方面发掘教师学生模型的差异,基于现有的 KD 方法建立了一个基准测试,提出了一种改进的 KD 流程,最后在 Waymo 数据集上进行了大量实验,实现了比教师模型更高的精度和更快的运行速度。
May, 2022
本文提出了一种基于多源知识蒸馏的 3D 点云语义分割方法,采用多到单的融合方式,通过实例感知亲和性蒸馏算法获取高级结构知识,实现对于难分类类别的提升。在 SemanticKITTI 数据集中实验证明,该方法在验证集和测试集上均显著优于基线方法。
Apr, 2023
本论文提出了一种基于结构化知识蒸馏的框架,旨在提高现代视觉仅 BEV 检测模型的效率,并在 nuScenes 基准测试上表现出显著的优越性,平均改善 2.16mAP 和 2.27NDS。
Nov, 2022
提出了一种在点云中基于消息传递和动态图形的 3D 物体检测架构,通过一种针对 3D 检测任务的集合到集合的蒸馏方法来简化知识蒸馏,实现了自动驾驶基准测试的最先进性能。
Oct, 2021
该研究论文提出了一种基于图像的物体姿态估计方法,利用多模态方法学习的 3D 知识通过对比知识蒸馏框架有效地转移给单模态模型,使其在没有 3D 信息的情况下提升物体姿态估计准确率,实验证明了该方法的有效性。
Jun, 2022
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。
Nov, 2016
提出了一种新颖的方法,通过使用 X 射线视觉模型引入 Object-Complete frames 来处理 LiDAR 在 3D 物体检测中的稀疏性和遮挡问题,并且应用于半监督和监督学习场景中,取得了优于现有方法 1-1.5 mAP 的性能提升。
Mar, 2024
自监督图像网络在解决复杂的 2D 任务(如语义分割、目标发现)时非常高效且几乎没有下游监督要求,然而,当前基于激光雷达数据的自监督 3D 网络表现不佳,因此有几种方法提议将高质量的自监督 2D 特征转移到 3D 网络中,最近在自动驾驶数据上进行的尝试显示了有希望的结果,然而,这些转移后的特征与完全监督的特征之间仍然存在差距,本文重新审视了 2D 到 3D 转移,首先,针对语义分割,我们提出了一种简单的方法,相对于之前的 3D 转移方法实现了显著的提高,其次,我们证明了在高容量的 3D 网络中进行转移对于获得高质量的 3D 特征至关重要,这实际上使我们能够显著缩小无监督转移的 3D 特征与完全监督特征之间的差距,最后,我们表明我们所得到的高质量转移表示还可以用于开放词汇的分割和背景 / 前景发现。
Oct, 2023
本文提出 X^3KD,一种基于多模态、多任务、多阶段的知识蒸馏框架,通过跨任务蒸馏、跨模态特征蒸馏、对抗训练以及跨模态输出蒸馏等方式,改进了基于多摄像头图像的 3D 物体检测模型性能,最终 X^3KD 模型在 nuScenes 和 Waymo 数据集上取得了最新的最佳性能表现,并且具有推广到基于雷达的 3D 物体检测的能力。
Mar, 2023