LLaMA Rider: 刺激大型语言模型探索开放世界

Oct, 2023

LLaMA Rider: 刺激大型语言模型探索开放世界

LLaMA Rider: Spurring Large Language Models to Explore the Open World

Yicheng Feng, Yuxuan Wang, Jiazheng Liu, Sipeng Zheng, Zongqing Lu

TL;DR提出了一种利用大语言模型（LLMs）在开放环境中帮助决策和规划，并试图将 LLMs 的知识与现实世界条件相一致的方法，通过多轮反馈修订机制鼓励 LLMs 积极选择适当的修订动作，以此促进探索并提高模型的性能，同时结合子任务重新标记来帮助 LLMs 保持一致性，并训练模型了解任务之间的组合性质，从而通过基于获得的探索经验进行训练，完成更广泛的任务。在 Minecraft 的评估中，证明了我们的方法 LLaMA-Rider 提高了 LLM 在环境探索方面的效率，通过仅使用 1.3k 个收集的数据进行微调，与使用强化学习的基准线相比，训练成本极低。

Abstract

Recently, various studies have leveraged large language models (LLMs) to help decision-making and planning in environments, and try to align the LLMs' knowledge with the world conditions. Nonetheless, the capacity of LLMs to continuously acquire environmental knowledge and adapt in an

large language models open world exploration task-solving capabilities sub-task relabeling

发现论文，激发创造

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

大型语言模型能否进行上下文探索？

现代大型语言模型（LLMs）在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有 LLMs 的本地性能。我们将 LLMs 部署为简单的多臂赌博机环境中的代理，使用完全基于环境描述和交互历史的 LLM 提示。通过实验，我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好，但得出的结论是在复杂环境中，可能需要非平凡的算法干预才能使 LLMs 代理能够做出理想的决策。

Mar, 2024

RLAdapter: 在开放环境中将大型语言模型与强化学习相结合

RLAdapter 通过引入一个适配器模型，在强化学习和大型语言模型之间建立更好的联系，通过在 RL 代理的训练过程中生成的信息来微调轻量级语言模型，从而在适应下游任务方面提供更好的指导，并在 Crafter 环境中实验表明 RLAdapter 超过了基线模型，且我们的框架下的代理展现出了常识行为。

Sep, 2023

从词语到行动：揭示 LLM 驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

通过强化学习实现算法代理和 LLM 之间的高效交互

本文主要介绍了使用基于强化学习的调解模型，来解决使用大型语言模型进行高级指令的效率和成本问题，并在四种实验环境下验证了该方法的准确性和效率。

Jun, 2023

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

自省提示：用于上下文决策的大型语言模型

本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化，从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能，却不调整 LMM 参数，结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。

May, 2023

使用 LLMs 增强端到端自主驾驶模仿学习的多模态记号提示

利用大型语言模型（LLMs）与强化学习相结合的混合端到端学习框架，通过基于多模态提示标记的基本驾驶模仿学习与 LLMs 的结合，来提高自动驾驶性能。

Apr, 2024

部分可观察机器人任务的大型语言模型交互规划

使用大型语言模型（LLMs）的互动规划技术，通过机器人收集环境中缺失的信息并推断底层问题的状态，从而指导机器人执行所需的动作。

Dec, 2023