Oct, 2023

多模态大型语言模型用于视觉导航

TL;DR通过简单的文本提示、当前观察和历史收集模型,我们的方法在视觉导航中对大型语言模型进行了精细调优,训练模型使用了来自 Habitat-Matterport 3D 数据集(HM3D)的人类示范和碰撞信号,实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。