Dec, 2023

COTR: 基于视觉的紧凑式占据 Transformer 用于 3D 占据预测

TL;DR自主驾驶中感兴趣的 3D 占据预测,通过其出色的几何认知和一般物体识别能力来推动。为了实现这一点,当前的工作试图构建从鸟瞰图感知扩展的三透视视图(TPV)或占据(OCC)表示。然而,像 TPV 表示这样的压缩视图会丢失 3D 几何信息,而原始和稀疏的 OCC 表示则需要大量但冗余的计算成本。为了解决上述限制,我们提出了一种紧凑的占据转换器(COTR),它具有一个具有几何意识的占据编码器和一个语义意识的组解码器来重建紧凑的 3D OCC 表示。经验性实验表明,在多个基线上有明显的性能提升,例如,COTR 相对改进 8%-15%,证明了我们方法的优越性。