Oct, 2023
多模态大型语言模型用于视觉导航
Multimodal Large Language Model for Visual Navigation
Yao-Hung Hubert Tsai, Vansh Dhar, Jialu Li, Bowen Zhang, Jian Zhang
TL;DR通过简单的文本提示、当前观察和历史收集模型,我们的方法在视觉导航中对大型语言模型进行了精细调优,训练模型使用了来自 Habitat-Matterport 3D 数据集(HM3D)的人类示范和碰撞信号,实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。