利用大型语言模型指导强化学习的预训练

Feb, 2023

利用大型语言模型指导强化学习的预训练

Guiding Pretraining in Reinforcement Learning with Large Language Models

Yuqing Du, Olivia Watkins, Zihan Wang, Cédric Colas, Trevor Darrell...

TL;DR提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Abstract

reinforcement learning algorithms typically struggle in the absence of a dense, well-shaped reward function. intrinsically motivated exploration methods address this limitation by rewarding agents for visiting no

reinforcement learning intrinsically motivated exploration text corpora language model robotic simulator

发现论文，激发创造

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

通过自对准使用大型语言模型学习机器人技能的奖励

在没有人类干预的情况下，我们提出了一种通过使用大型语言模型（LLM）来学习奖励的方法，该方法通过迭代的自我对齐过程，最小化 LLM 和学习奖励函数之间的排名不一致性，从而在训练效果和效率方面实现了一致的改善，并且相比于基于突变的方法消耗了更少的 GPT 令牌。

May, 2024

从词语到行动：揭示 LLM 驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

大型语言模型作为双人游戏中的代理

通过在单一统一的机器学习范式中正式定义大型语言模型（LLM）的训练过程，包括预训练、监督微调和强化学习与人类反馈，我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处，从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角，为解决对齐问题等战略考虑提供了新的理解。此外，我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。

Feb, 2024

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

利用大型语言模型启发增强 Q-Learning

LLM-guided Q-learning combines the advantages of large language models and Q-learning without introducing performance bias, providing action-level guidance and converting hallucinations into exploration costs, resulting in improved sampling efficiency and suitability for complex control tasks.

May, 2024

基于大型语言模型的高效强化学习搜索

通过将大型语言模型与 MEDIC 框架结合，我们的研究旨在改善强化学习的样本效率，特别针对稀疏奖励领域和随机转换等问题，以提高 PPO 和 A2C 强化学习算法的样本复杂度，并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。

May, 2024

利用大型语言模型自动化并加快使用奖励机制的强化学习

我们提出了 LARL-RM 算法，利用自动机将高层知识编码到强化学习中，以加速强化学习过程，同时使用大型语言模型通过提示工程来获取高层领域特定知识，避免了需要专家编码自动机的问题，且能够在无需专家指导和监督下进行全闭环强化学习，我们还展示了算法收敛到最优策略的理论保证，并通过两个案例研究实现了 30% 的加速收敛。

Feb, 2024

通过强化学习实现算法代理和 LLM 之间的高效交互

本文主要介绍了使用基于强化学习的调解模型，来解决使用大型语言模型进行高级指令的效率和成本问题，并在四种实验环境下验证了该方法的准确性和效率。

Jun, 2023