高效的鸟瞰视角三维孪生跟踪提议
本文提出了一种 Siamese Voxel-to-BEV Tracker,通过 Siamese 形状感知特征学习网络和体素到 BEV 目标定位网络大幅提高了稀疏点云中的 3D 物体追踪性能,并在 KITTI 和 nuScenes 数据集上得到了显著的性能优化。
Nov, 2021
提出一种基于弱监督学习的方法来估计具有鸟瞰视角位置的物体的三维位置,该方法可以在单个前馈网络过程中联合学习回归 2D 对象检测和场景深度预测,并在不需要 3D 或 BEV 注释或 LiDAR 数据的情况下对物体进行建模。
Dec, 2022
本文提出了一种全端到端的三维物体检测框架,可以仅使用 Bird's Eye View 图像自动推断取向的三维包围盒,并且该方法在 KITTI 三维物体检测基准中超出了现有方法的性能并获得了最佳结果。
Mar, 2020
本研究提出了一种将三维环境的语义和几何以二维形式编码的场景表示法,并使用辅助网络预测显式和隐式语义概率的组合作为更好的 BEV 特征学习的密集监督信号,实验证明该设计可以轻松集成到大多数先进的三维物体检测器中,并始终改善基线模型。
Apr, 2023
在本文中,我们介绍了 BEVTrack,一个简单但强大的三维单目标跟踪基线框架。通过将连续的点云转换成常见的鸟瞰图表示,BEVTrack 通过简单的逐元素操作和卷积层,天然地编码了空间邻近性并熟练地捕捉运动线索,同时直接学习目标的运动分布,而无需假定固定的拉普拉斯或高斯。BEVTrack 在 KITTI 和 NuScenes 数据集上取得了最先进的性能,并且推理速度高达 122 帧 / 秒。
Sep, 2023
本研究提出了一种利用分割信息指导检测过程的多任务框架,该框架联合执行三维物体检测和全景分割,可利用多视角信息解决每个投影视图的缺陷,并通过前景语义信息和中心密度热力图来提示物体的可能框中心位置。在 nuScenes 数据集上进行的大量实验表明,该方法提供了显著的性能提升,基于单级 CenterPoint 3D 物体检测网络的所提出方法在 nuScenes 3D 检测基准上取得了 67.3 NDS 的最新性能。
Mar, 2022
3D 物体检测在俯视(Bird's-Eye-View)空间中最近成为自动驾驶领域的一种普遍方法。本研究提出了一种高效的基于 BEV 的 3D 检测框架 BEVENet,通过采用仅卷积的架构设计,克服了 ViT 模型的局限性,同时保持了 BEV 方法的有效性。实验证明,BEVENet 在 NuScenes 挑战赛中比当代最先进方法快 3 倍,同时在 NuScenes 验证数据集上获得 0.456 的平均精确度(mAP)和 0.555 的 nuScenes 检测分数(NDS),推断速度为 47.6 帧每秒。据我们所知,这是首次实现如此显著的 BEV 方法效率改进的研究,突显了它们在实际自动驾驶应用中的可行性提升。
Dec, 2023
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。
Nov, 2016
稀疏 LiDAR 点云数据仍然存在挑战,因此本文提出了一种多相关 Siamese Transformer 网络,通过在每个阶段末尾基于稀疏支柱进行特征相关,以学习搜索区域的特征并保持模板的独立特征。该算法在 KITTI、nuScenes 和 Waymo 数据集上取得了有希望的性能,并提供了对每个组件有效性的消融实验研究。
Dec, 2023
本文探讨了形状完成技术在 LIDAR 三维物体追踪中的应用,设计了一个 Siamese 追踪器,通过对模型和候选形状进行编码,实现了更好的 3D 物体追踪。在 KITTI 追踪数据上的实验结果表明,该模型将成功率和准确率均提升了 3%以上。
Mar, 2019