Aug, 2024

分而治之:利用2D语义深度先验和输入依赖查询改善多摄像头3D感知

TL;DR本研究针对多摄像头图像中的3D感知任务,如3D物体检测和鸟瞰视图分割,提出了一种新的输入感知Transformer框架(SDTR),有效整合了语义和深度信息。研究结果表明,该方法在3D物体检测和BEV分割任务上均表现出最先进的性能,显著减少了分类和位置估计错误。