Oct, 2023

LLaMA Rider: 刺激大型语言模型探索开放世界

TL;DR提出了一种利用大语言模型(LLMs)在开放环境中帮助决策和规划,并试图将 LLMs 的知识与现实世界条件相一致的方法,通过多轮反馈修订机制鼓励 LLMs 积极选择适当的修订动作,以此促进探索并提高模型的性能,同时结合子任务重新标记来帮助 LLMs 保持一致性,并训练模型了解任务之间的组合性质,从而通过基于获得的探索经验进行训练,完成更广泛的任务。在 Minecraft 的评估中,证明了我们的方法 LLaMA-Rider 提高了 LLM 在环境探索方面的效率,通过仅使用 1.3k 个收集的数据进行微调,与使用强化学习的基准线相比,训练成本极低。