物体作为时空 2.5D 点
本文提出了一种全端到端的三维物体检测框架,可以仅使用 Bird's Eye View 图像自动推断取向的三维包围盒,并且该方法在 KITTI 三维物体检测基准中超出了现有方法的性能并获得了最佳结果。
Mar, 2020
本研究提出了一种将三维环境的语义和几何以二维形式编码的场景表示法,并使用辅助网络预测显式和隐式语义概率的组合作为更好的 BEV 特征学习的密集监督信号,实验证明该设计可以轻松集成到大多数先进的三维物体检测器中,并始终改善基线模型。
Apr, 2023
在本文中,我们介绍了 BEVTrack,一个简单但强大的三维单目标跟踪基线框架。通过将连续的点云转换成常见的鸟瞰图表示,BEVTrack 通过简单的逐元素操作和卷积层,天然地编码了空间邻近性并熟练地捕捉运动线索,同时直接学习目标的运动分布,而无需假定固定的拉普拉斯或高斯。BEVTrack 在 KITTI 和 NuScenes 数据集上取得了最先进的性能,并且推理速度高达 122 帧 / 秒。
Sep, 2023
本文提出了一种基于图神经网络的方法,通过对于场景中物体的空间关系,从单目图像中预测出鸟瞰地图中的物体,从而解决了现有基于纹理的模型在距离摄像机较远时定位错误率增加的问题,并在三个大规模数据集上取得了最新的最佳结果,包括了相对于 nuScenes 数据集上 50% 的提升。
Apr, 2022
本文提出一种使用 LIDAR 点云的 Bird Eye View 结构来实现车辆跟踪的方法,该方法结合使用高效的区域提议网络和 3D Siamese 网络来生成和筛选 3D 物体候选项,并且通过端到端训练的方法,使车辆跟踪的成功率和精度分别优于以往的基线水平 12% 和 18%。
Mar, 2019
提出了 MaskBEV,一种基于鸟瞰图的面罩型目标检测器神经架构,用于检测单个 BEV 实例掩模,同时重塑检测问题,完全基于分类处理。
Jul, 2023
3D 物体检测在俯视(Bird's-Eye-View)空间中最近成为自动驾驶领域的一种普遍方法。本研究提出了一种高效的基于 BEV 的 3D 检测框架 BEVENet,通过采用仅卷积的架构设计,克服了 ViT 模型的局限性,同时保持了 BEV 方法的有效性。实验证明,BEVENet 在 NuScenes 挑战赛中比当代最先进方法快 3 倍,同时在 NuScenes 验证数据集上获得 0.456 的平均精确度(mAP)和 0.555 的 nuScenes 检测分数(NDS),推断速度为 47.6 帧每秒。据我们所知,这是首次实现如此显著的 BEV 方法效率改进的研究,突显了它们在实际自动驾驶应用中的可行性提升。
Dec, 2023
SparseBEV 是一种全更稀疏的三维物体检测器,通过尺度自适应自注意力、自适应时空采样和自适应混合等关键设计,在 BEV 空间和图像空间中实现了优于稠密对应物的性能。
Aug, 2023
本研究提出了一种利用分割信息指导检测过程的多任务框架,该框架联合执行三维物体检测和全景分割,可利用多视角信息解决每个投影视图的缺陷,并通过前景语义信息和中心密度热力图来提示物体的可能框中心位置。在 nuScenes 数据集上进行的大量实验表明,该方法提供了显著的性能提升,基于单级 CenterPoint 3D 物体检测网络的所提出方法在 nuScenes 3D 检测基准上取得了 67.3 NDS 的最新性能。
Mar, 2022
提出了一种新方法 IA-BEV,它将图像平面实例感知集成到基于 BEV 的深度估计过程中,通过增强单目深度生成的有效性和鼓励模型在计算密集的时间立体匹配中更加注重具有挑战性的物体,为高质量 BEV 特征构建提供先进的深度估计结果,从而有利于最终的三维检测。所提出的方法在具有挑战性的 nuScenes 基准测试中取得了最先进的性能,广泛的实验结果表明了我们设计的有效性。
Dec, 2023