ICCVAug, 2023

UniTR: 统一高效的多模态 Transformer 用于鸟瞰表示

TL;DRUniTR 是一种高效的多模态骨干网络,用于处理多传感器数据并实现准确可靠的自动驾驶系统的感知。它引入了一种模态不可知的转换编码器来处理不同的传感器数据,并通过视角不一致的传感器数据进行并行模态表示学习和自动跨模态交互,无需额外的融合步骤。它通过同时考虑语义丰富的 2D 透视图和几何感知的 3D 稀疏邻域关系,提出了一种新颖的多模态融合策略。在 nuScenes 评测上,UniTR 在 3D 目标检测方面取得了 + 1.1 NDS 的提高,在 BEV 地图分割方面取得了 + 12.0 mIoU 的提高,并具有较低的推理延迟。