CVPRMar, 2024
视觉语言导航的体积环境表示
Volumetric Environment Representation for Vision-Language Navigation
Rui Liu, Wenguan Wang, Yi Yang
TL;DR基于视觉观察和自然语言指令,本论文提出了一种基于体素化环境表示的视觉语言导航模型,在多任务学习的影响下,预测 3D 占用、3D 房间布局和 3D 边界框,并通过在线采集的环境表示进行体积状态估计和建立序列记忆,取得了在 VLN 基准测试(R2R,REVERIE 和 R4R)上最先进的性能。