Jul, 2024

NavGPT-2:发掘大型视觉语言模型的导航推理能力

TL;DR通过固定Large Language Models中的视觉内容,我们利用了一种将LLMs和导航策略网络结合起来进行有效动作预测和导航推理的方法,展示了所提出方法的数据效率,并消除了基于LM的代理与最先进VLN专家之间的差距。