Apr, 2024

通过预测物体移动来学习时间线索的多摄像头三维物体检测

TL;DR在自动驾驶和机器人技术中,利用短期历史数据增强多摄像头 3D 物体检测的兴趣日益增长,通过利用输入视频流的连续且相关性质来实现。最近的研究集中在基于 BEV(鸟瞰图)的特征在时间步内的空间对齐上。然而,由于长期过去的观测没有良好的扩展效果,这方面的工作通常受限。为了解决这个问题,我们提出了一种名为 DAP(预测后检测)的模型,包括两个分支网络:(一)一个分支负责根据过去的观测预测当前物体的位置,(二)另一个分支基于当前和过去的观测来检测物体。从分支(一)预测当前物体的特征被融合到分支(二)中以传递预测性知识。我们在大规模的 nuScenes 数据集上进行了广泛的实验,并观察到利用这种预测信息显著提高了整体检测性能。我们的模型可以即插即用,表现出一致的性能提升。