语言作为指引：通过高层语言提示指导强化学习代理

Oct, 2024

语言作为指引：通过高层语言提示指导强化学习代理

Words as Beacons: Guiding RL Agents with High-Level Language Prompts

Unai Ruiz-Gonzalez, Alain Andres, Pedro G. Bascoy, Javier Del Ser

TL;DR本研究针对强化学习中稀疏奖励环境所面临的探索挑战，提出了一种教师-学生强化学习框架，利用大型语言模型作为教师，帮助代理通过细分复杂任务为子目标来学习。实验结果表明，此方法显著加速了学习速度，并在复杂任务中提高了探索效率，训练步骤的收敛速度比目前在稀疏奖励环境中设计的基线快30至200倍。

Abstract

Sparse reward environments in Reinforcement Learning (RL) pose significant challenges for Exploration, often leading to inefficient or incomplete learning processes. To tackle this issue, this work proposes a tea

发现论文，激发创造

利用大型语言模型指导强化学习的预训练

提出了一种名为ELLM（LLM探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在Crafter游戏环境和Housekeep机器人模拟器中的实验，证明了ELLM训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023

RLAdapter: 在开放环境中将大型语言模型与强化学习相结合

RLAdapter通过引入一个适配器模型，在强化学习和大型语言模型之间建立更好的联系，通过在RL代理的训练过程中生成的信息来微调轻量级语言模型，从而在适应下游任务方面提供更好的指导，并在Crafter环境中实验表明RLAdapter超过了基线模型，且我们的框架下的代理展现出了常识行为。

Sep, 2023

LgTS: 使用LLM生成的子目标进行动态任务抽样的强化学习代理

本研究提出了一种新方法，利用大型语言模型（LLM）的规划能力，为没有环境转换动力学访问权限的强化学习代理提供子目标的图形表示，同时最小化环境交互次数。

Oct, 2023

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

GLIDE-RL: 基于强化学习的通过演示进行语言指导

通过多个教师 - 学生代理的课程学习框架，GLIDE-RL 提出了一种训练自然语言指令遵循的强化学习代理的新算法，通过利用强化学习、课程学习、连续学习和语言模型的进展，能够适应以前未见过的语言指令并验证了其有效性。

Jan, 2024

RL/LLM 税务分类树：回顾强化学习与大型语言模型之间的协同效应

本文探讨将强化学习和大型语言模型两大领域结合的研究，提出了一个分类系统并分析了其协同效应和潜在问题。

Feb, 2024

文本环境中的强化学习智能体的语言引导探索

通过使用预训练语言模型（称为GUIDE）为强化学习代理（称为EXPLORER）提供决策级别的指导，我们引入了Language Guided Exploration（LGE）框架，并观察到LGE在具有挑战性的文本环境中显著优于传统强化学习代理、行为克隆和文本决策转换等先进方法。

Mar, 2024

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

基于大型语言模型的高效强化学习搜索

通过将大型语言模型与MEDIC框架结合，我们的研究旨在改善强化学习的样本效率，特别针对稀疏奖励领域和随机转换等问题，以提高 PPO 和 A2C 强化学习算法的样本复杂度，并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。

May, 2024