Feb, 2024

AYDIV: 可适应的基于集成上下文的视觉 Transformer 的三维物体检测

TL;DR融合激光雷达和摄像头数据在自动驾驶系统中提高近距离物体检测的潜力,但由于激光雷达稀疏数据和摄像头高分辨率图像之间的对比度差异,融合在远距离检测上遇到困难,该研究引入 AYDIV 框架,通过全局上下文融合对齐变换器(GCFAT)、稀疏融合特征注意力(SFFA)和体积网格注意力(VGA)来改进融合方法,实验结果在 Waymo Open 数据集和 Argoverse2 数据集上表现优于其他现有的基于融合的方法,对于 mAPH 值(L2 难度)有 1.24% 的提升和 AP 值有 7.40% 的提升,我们的代码可公开获取于该 https URL。