Oct, 2023

三维物体检测的多模态物体查询初始化

TL;DR提出了 EfficientQ3M,一种高效、模块化、多模态的解决方案,用于基于 transformer 的 3D 目标检测模型中的对象查询初始化。通过与 “模态平衡” 的 transformer 解码器相结合,该方法能够在解码器过程中使查询能够访问所有传感器模态,并在竞争激烈的 nuScenes 基准测试中超越现有方法,展示了基于输入的多模态查询初始化的优势,并且比 LiDAR - 摄像机初始化的可用替代方法更高效。该方法可以应用于任何组合的传感器模态作为输入,展示了它的模块化特性。