CVPRMar, 2024

视觉语言导航的体积环境表示

TL;DR基于视觉观察和自然语言指令,本论文提出了一种基于体素化环境表示的视觉语言导航模型,在多任务学习的影响下,预测 3D 占用、3D 房间布局和 3D 边界框,并通过在线采集的环境表示进行体积状态估计和建立序列记忆,取得了在 VLN 基准测试(R2R,REVERIE 和 R4R)上最先进的性能。