利用 LLM 反馈进行强化学习以对抗目标误推

Jan, 2024

利用 LLM 反馈进行强化学习以对抗目标误推

Reinforcement Learning from LLM Feedback to Counteract Goal Misgeneralization

Houda Nait El Barj, Theophile Sautory

TL;DR介绍一种使用大型语言模型（LLM）反馈来解决强化学习中的目标误概化问题的方法，通过在训练过程中利用 LLMs 分析 RL 代理的策略并识别潜在的故障场景，进而部署 RL 代理并通过 LLM 偏好和反馈学习奖励模型，用这个基于 LLM 信息的奖励模型进一步训练 RL 代理，在迷宫导航任务中应用我们的方法，显示在目标广义化方面有明显改善，特别是当真实目标和代理目标在某种程度上可区分且行为偏差显著的情况下，这项研究展示了 LLM 如何有效监督 RL 代理，在强化学习中通过使用 LLMs 提供可扩展的监督和宝贵的洞察来增强目标导向学习。

Abstract

We introduce a method to address goal misgeneralization in reinforcement learning (RL), leveraging large language model (LLM) feedback during training. →

reinforcement learning goal misgeneralization large language model rl agent maze navigation task

发现论文，激发创造

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

深度强化学习中的目标错泛化

本文研究强化学习中的一种广义泛化失败 —— 目标错误泛化。在此类失败中，强化学习代理在越出分布的情况下保留其能力，但追求错误的目标。我们阐明了能力和目标泛化之间的差别，提供了目标错误泛化的第一次经验演示，并对其原因进行了部分表征。

May, 2021

面向基于文本的教育环境的通用智能体: RL 与 LLMs 的整合研究

通过将强化学习与大型语言模型结合，研究了在开放性文本学习环境中增强代理的泛化能力，提出了三种代理类型：基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理，以提高代理的性能和泛化能力，并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明，基于强化学习的代理在任务完成方面表现出色，但在提问诊断问题方面有所欠缺；相反，基于大型语言模型的代理在提问诊断问题方面表现较好，但在完成任务方面表现较差；而混合的大型语言模型辅助强化学习代理能够克服这些限制，凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。

Apr, 2024

大型语言和强化学习模型相互增强的双向反馈机制：以案例研究为例

大型语言模型和强化学习模型合作的教师 - 学生学习框架，通过递归互助的方式，实现了抽象信息的供给和实时反馈的互利循环，从而推动大型语言模型和强化学习模型在协同多智能体环境中的优化、探索和互相改进。

Jan, 2024

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

通过 RL 对想象中的对话进行零样本目标导向对话

通过使用强化学习进行交互式对话的目标导向任务，本研究提出利用大型语言模型生成可能的交互示例，再通过强化学习算法优化这些示例，以实现更优化的交互能力，从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。

Nov, 2023

从词语到行动：揭示 LLM 驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

通过强化学习实现算法代理和 LLM 之间的高效交互

本文主要介绍了使用基于强化学习的调解模型，来解决使用大型语言模型进行高级指令的效率和成本问题，并在四种实验环境下验证了该方法的准确性和效率。

Jun, 2023