Feb, 2024

基于视频的 VLM 为视觉与语言导航规划下一步

TL;DRNaVid 是一个基于视频的大型视觉语言模型,通过动态的视频流输入,无需地图、测距仪和深度信息,实现了最先进水平的导航性能,解决了里程计噪声和模拟环境到真实环境之间的缺陷,同时有效地利用机器人的历史观察作为决策和指令遵循的时空背景,通过对 550k 个导航样本和 665k 个网络数据的训练,在模拟环境和真实世界中取得了非常好的性能,为导航代理和整个研究领域规划了下一步。