RLAdapter: 在开放环境中将大型语言模型与强化学习相结合

Sep, 2023

RLAdapter: 在开放环境中将大型语言模型与强化学习相结合

RLAdapter: Bridging Large Language Models to Reinforcement Learning in Open Worlds

Wanpeng Zhang, Zongqing Lu

TL;DRRLAdapter 通过引入一个适配器模型，在强化学习和大型语言模型之间建立更好的联系，通过在 RL 代理的训练过程中生成的信息来微调轻量级语言模型，从而在适应下游任务方面提供更好的指导，并在 Crafter 环境中实验表明 RLAdapter 超过了基线模型，且我们的框架下的代理展现出了常识行为。

Abstract

While reinforcement learning (RL) shows remarkable success in decision-making problems, it often requires a lot of interactions with the environment, and in sparse-reward environments, it is challenging to learn meaningful policies. →

reinforcement learning large language models rladapter downstream tasks crafter environment

发现论文，激发创造

通过适配器在知识图谱上将多语言 LLMs 调整为资源不足的语言

该研究探讨了将语义本体中的图谱知识整合到多语言大型语言模型中，通过适配器提高低资源语言在情感分析和命名实体识别中的性能，对八种低资源语言进行了实证评估，提供了适应低资源情景的语言模型优势的见解。

Jul, 2024

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

通过强化学习实现算法代理和 LLM 之间的高效交互

本文主要介绍了使用基于强化学习的调解模型，来解决使用大型语言模型进行高级指令的效率和成本问题，并在四种实验环境下验证了该方法的准确性和效率。

Jun, 2023

大型语言模型用于具体任务的可拓展性策略

通过大型语言模型 (LLM) 以及强化学习技术，我们开发了一种名为 LLaRP 的方法，使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中，能够忽略任务指令的复杂改写并生成新的最佳行为，在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率，并发布了一个名为 “Language Rearrangement” 的新基准测试数据集，用于研究基于语言、多任务和具体化 AI 问题。

Oct, 2023

推荐 AI 代理：整合大型语言模型进行交互式推荐

通过将推荐模型和大型语言模型相结合，本文介绍了一个名为 RecAgent 的高效框架，旨在创建一个多功能和交互式的推荐系统，通过整合大型语言模型，将传统的推荐系统转化为具有自然语言界面的交互系统。实验结果表明，RecAgent 作为一个对话式推荐系统表现出令人满意的性能，优于通用的大型语言模型。

Aug, 2023

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

LLaMA Rider: 刺激大型语言模型探索开放世界

提出了一种利用大语言模型（LLMs）在开放环境中帮助决策和规划，并试图将 LLMs 的知识与现实世界条件相一致的方法，通过多轮反馈修订机制鼓励 LLMs 积极选择适当的修订动作，以此促进探索并提高模型的性能，同时结合子任务重新标记来帮助 LLMs 保持一致性，并训练模型了解任务之间的组合性质，从而通过基于获得的探索经验进行训练，完成更广泛的任务。在 Minecraft 的评估中，证明了我们的方法 LLaMA-Rider 提高了 LLM 在环境探索方面的效率，通过仅使用 1.3k 个收集的数据进行微调，与使用强化学习的基准线相比，训练成本极低。

Oct, 2023

利用语言模型进行具身推理的协作

本文探究将强化学习代理人和大规模语言模型相结合，实现在复杂环境中的推理和泛化的能力，通过预训练语言模型作为规划器，简单的合成体智能作为行动器，和与规划器通信的汇报器这三部分，展示这个系统在零 - shot 泛化的任务中的表现，并且讨论了其失败情况以及组件使用增强学习的培训任务。

Feb, 2023

自动驾驶场景下的上下文学习

利用大型语言模型优化强化学习的奖励功能，使自动驾驶代理在行为上更加灵活、精准和类人化，探究奖励设计在塑造自动驾驶车辆行为中的重要影响，为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。

May, 2024

ADAPTER-RL：使用强化学习对任意代理进行自适应

深度强化学习代理人在适应训练分布之外的任务时面临着过拟合、灾难性遗忘和样本效率问题。本文探讨了适配器在强化学习中的应用，提出了一种创新的适应策略，在 nanoRTS 环境中实验，提高了训练效率并改进了基础代理人，同时兼容预训练神经网络和基于规则的代理人，提供了融合人类专业知识的方法。

Nov, 2023