SOGDet:语义占据引导的多视角三维物体检测
本文介绍了一种名为 BEVDet 的算法,它能够基于 Bird-Eye-View 拍摄的视频进行 3D 目标检测,通过利用数据增强策略和升级最大值抑制策略来提高性能,同时在精度和时间效率之间实现出色的平衡。
Dec, 2021
我们提出了一种新的 3D 语义占有率感知方法 OccupancyDETR,它包括一个类 DETR 的目标检测模块和一个 3D 占有率解码器模块,通过集成目标检测简化了我们的方法结构,提高了速度和性能,在 SemanticKITTI 数据集上展示了在实时 3D 语义场景完成方面的有效性。
Sep, 2023
本研究提出了一种利用分割信息指导检测过程的多任务框架,该框架联合执行三维物体检测和全景分割,可利用多视角信息解决每个投影视图的缺陷,并通过前景语义信息和中心密度热力图来提示物体的可能框中心位置。在 nuScenes 数据集上进行的大量实验表明,该方法提供了显著的性能提升,基于单级 CenterPoint 3D 物体检测网络的所提出方法在 nuScenes 3D 检测基准上取得了 67.3 NDS 的最新性能。
Mar, 2022
本研究提出了一种将三维环境的语义和几何以二维形式编码的场景表示法,并使用辅助网络预测显式和隐式语义概率的组合作为更好的 BEV 特征学习的密集监督信号,实验证明该设计可以轻松集成到大多数先进的三维物体检测器中,并始终改善基线模型。
Apr, 2023
本文介绍了一种 Semantic-Aware BEV Pooling (SA-BEVPool) 的方法,通过语义分割图像特征来过滤背景信息,并将图像特征转化为语义感知的 BEV 特征。同时,提出了一种与语义感知 BEV 特征相匹配的有效数据增强策略 BEV-Paste。此外,设计了一个多尺度交叉任务头(MSCT),结合特定任务和交叉任务的信息来更准确地预测深度分布和语义分割,进一步提高语义感知 BEV 特征的质量。最后,将这些模块整合到一个新的多视角 3D 目标检测框架 SA-BEV 中,在 nuScenes 数据集上达到了最先进的性能。
Jul, 2023
通过设计 3D 解码器来利用多视图图像的鸟瞰图(BEV)特征预测 3D 场景的占位情况,为多摄像头智能驾驶提供了一种先进的、可行的和经济高效的解决方案,并取得了显着提升的结果。
May, 2023
本文提出了一种名为 SGM3D 的新方法,通过引入多粒度域自适应和基于 IoU 匹配的对齐方法,将立体 3D 特征适应到单眼检测中,显著提高了检测性能。实验证明,该方法在 KITTI 和 Lyft 数据集上取得了最先进的结果。
Dec, 2021
通过基于鸟瞰(BEV)检测范式的显式特征投影、经典 BEV 检测架构的拆分、不均匀的 BEV 网格设计、稀疏的 BEV 特征投影策略和统一的域对齐方法等技术,派生出了统一的检测器 UniMODE,其在挑战性的 Omni3D 数据集上超过了先前的最新技术,实现了首个 BEV 检测器对统一 3D 物体检测的成功推广。
Feb, 2024
本文提出了一种全端到端的三维物体检测框架,可以仅使用 Bird's Eye View 图像自动推断取向的三维包围盒,并且该方法在 KITTI 三维物体检测基准中超出了现有方法的性能并获得了最佳结果。
Mar, 2020
3D 物体检测在俯视(Bird's-Eye-View)空间中最近成为自动驾驶领域的一种普遍方法。本研究提出了一种高效的基于 BEV 的 3D 检测框架 BEVENet,通过采用仅卷积的架构设计,克服了 ViT 模型的局限性,同时保持了 BEV 方法的有效性。实验证明,BEVENet 在 NuScenes 挑战赛中比当代最先进方法快 3 倍,同时在 NuScenes 验证数据集上获得 0.456 的平均精确度(mAP)和 0.555 的 nuScenes 检测分数(NDS),推断速度为 47.6 帧每秒。据我们所知,这是首次实现如此显著的 BEV 方法效率改进的研究,突显了它们在实际自动驾驶应用中的可行性提升。
Dec, 2023