通过从大型语言模型推演中进行离线强化学习实现具备专业知识的智能体

Apr, 2024

通过从大型语言模型推演中进行离线强化学习实现具备专业知识的智能体

Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts

Jing-Cheng Pang, Si-Hang Yang, Kaiyuan Li, Jiaji Zhang, Xiong-Hui Chen...

TL;DR基于大型语言模型的知识型代理系统能够通过想象中的轨迹从环境交互数据中提取知识并与强化学习进行无缝集成。

Abstract

reinforcement learning (RL) trains agents to accomplish complex tasks through environmental interaction data, but its capacity is also limited by the scope of the available data. To obtain a knowledgeable agent,

reinforcement learning knowledgeable agents language models imaginary rollouts environmental interaction data

发现论文，激发创造

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

通过强化学习实现算法代理和 LLM 之间的高效交互

本文主要介绍了使用基于强化学习的调解模型，来解决使用大型语言模型进行高级指令的效率和成本问题，并在四种实验环境下验证了该方法的准确性和效率。

Jun, 2023

真知源于实践：通过强化学习使 LLMs 与具身环境对齐

通过将大型语言模型（LLMs）作为决策制定代理部署到 RL 中，我们提出了 TWOSOME，这是一个新颖的在线框架，无需准备数据集或环境先验知识，使 LLMs 能够高效地与具体环境进行交互和对齐。在广泛的实验中，我们评估了 TWOSOME 的性能，结果表明 TWOSOME 在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能，并展示了优越的一般化能力和原始能力的保持。

Jan, 2024

面向基于文本的教育环境的通用智能体: RL 与 LLMs 的整合研究

通过将强化学习与大型语言模型结合，研究了在开放性文本学习环境中增强代理的泛化能力，提出了三种代理类型：基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理，以提高代理的性能和泛化能力，并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明，基于强化学习的代理在任务完成方面表现出色，但在提问诊断问题方面有所欠缺；相反，基于大型语言模型的代理在提问诊断问题方面表现较好，但在完成任务方面表现较差；而混合的大型语言模型辅助强化学习代理能够克服这些限制，凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。

Apr, 2024

利用大型语言模型自动化并加快使用奖励机制的强化学习

我们提出了 LARL-RM 算法，利用自动机将高层知识编码到强化学习中，以加速强化学习过程，同时使用大型语言模型通过提示工程来获取高层领域特定知识，避免了需要专家编码自动机的问题，且能够在无需专家指导和监督下进行全闭环强化学习，我们还展示了算法收敛到最优策略的理论保证，并通过两个案例研究实现了 30% 的加速收敛。

Feb, 2024

语言模型作为零 - shot 规划器：提取行动知识用于具身代理

本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务，并提出了一种条件方法，将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明，该方法在可执行性方面显著优于大型语言模型基线。

Jan, 2022

强化学习智能体的心智模型构建：基于语言模型的研究

大语言模型是否能够忠实地模拟决策智能体的智能能力，本研究通过实证方法首次探讨了大语言模型在通过推理构建决策智能体的心智模型方面的能力，并提供了关于其对强化学习智能体行为的解释性约束方面的新见解。

Jun, 2024

从词语到行动：揭示 LLM 驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024