M&M3D: 多数据集训练和高效网络用于多视角 3D 目标检测
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。
Nov, 2016
提出了一种基于多视图轴自注意力和局部 ROI 自注意力的多路径多表示 3D 物体检测方法,通过稀疏浮动查询和密集 BEV 查询的多重表示进一步提高了性能,对于自动驾驶系统具有重要意义。
Feb, 2023
通过使用多个标注源数据集,并结合基于粗标签的标签映射以及跨数据集对象注入的数据增强方法,提高了在不同环境中、由不同传感器配置采集的数据上测试时三维物体检测模型的鲁棒性。
Aug, 2023
本论文提出了一种名为 DG-BEV 的方法,通过将同态转换的测度深度预测转换为尺度不变深度来获得强健的深度预测,并使用单应性进行动态透视增强以增加外参参数的多样性,并通过多个伪域值修改对抗性训练损失来构建特征表示,从而显著减轻了目标领域的性能下降。
Mar, 2023
通过训练一个鲁棒的单目三维物体检测模型,采用包括多样化的三维和二维数据集、有选择地训练不同类别注释的数据集和使用二维标签的伪三维训练方法,我们可以获得具有强大泛化能力和对只有二维标签的新数据集表现出色的模型。
Oct, 2023
通过与 2D 相机平面结果对齐的方法,本研究提出了一种新颖的多相机三维目标检测方法,确保持一致且准确的检测结果。该方法通过视角校正,将鸟瞰视图特征渲染为多视图地图,并纠正了这些地图的透视偏差,利用隐含的前景体来连接相机与鸟瞰视图平面。该两步过程促进了视角和上下文无关特征的学习,对于准确地检测不同视角、相机参数和环境条件下的目标至关重要。此外,该方法采用基于模型的不可知的方法,而不需要额外的推理成本和对真实场景注释,从而促进了各种模型的无缝集成和简化部署。实验结果在领域泛化和无监督领域自适应方面明确展示了其有效性。
Oct, 2023
MS3D++ 是一个用于 3D 目标检测的自我训练框架,通过生成高质量的伪标签实现多源无监督域适应,改进了 3D 检测器在不同领域中的泛化能力,并在 Bird's Eye View(BEV)评估中,使用 MS3D++ 伪标签训练的检测器在低密度和高密度 lidar 的性能上达到了与人工标注标签相媲美的最新水平。
Aug, 2023
提出了一种弱到强的激励框架来增强环境细化,同时保持强健的单目感知,通过基于不同子集训练的弱调优专家来学习单目退化的感知,进而改善多视角融合阶段的环境细化能力,并提出了一种综合蒸馏策略来整合 2D 基础模型和任务特定信息的通用知识,最后,为 MC3D-Det 联合训练设计了一个精心制定的数据集合并策略,解决了不一致的摄像头数量和参数问题,此框架普遍提升了多个基准方法效果。
Apr, 2024
本研究提出了一种基于几何关系的 monocular 三维物体检测方法,通过单独的三维区域建议网络和深度感知卷积层,能够有效地改善基于图像的三维物体检测在自动驾驶领域中的表现。在 KITTI 数据集上,与其他之前的方法相比,M3D-RPN 方法在单眼三维物体检测和俯视图检测任务中都表现出显著的性能提升。
Jul, 2019
提出了一种基于多摄像头的 3D 对象检测框架,使用基于上下文注意力的网络,直接在 3D 空间中进行边界框的预测,实现了全球最佳性能。
Oct, 2021