Nov, 2023

MUVO:用于自动驾驶的多模态生成世界模型与几何表示

TL;DR学习无监督世界模型用于自主驾驶具有显著改善当代系统推理能力的潜力。我们提出了 MUVO,一种具有几何体素表示的多模态世界模型,以应对这一挑战。我们利用原始摄像机和激光雷达数据学习了一种与传感器无关的世界几何表示,可直接用于下游任务,如规划。我们展示了多模态的未来预测,并证明我们的几何表示改善了相机图像和激光点云的预测质量。