LLM增强型状态表示用于强化学习

Jul, 2024

LLM-Empowered State Representation for Reinforcement Learning

Boyuan Wang, Yun Qu, Yuhang Jiang, Jianzhun Shao, Chang Liu...

TL;DR利用大型语言模型(LLM)的LESR方法自主生成与任务相关的状态表示代码，提高网络映射的连贯性并促进高效训练，实验证明LESR在Mujoco任务的累积奖励上平均超过基准水平29%，在Gym-Robotics任务的成功率上平均超过基准水平30%。

Abstract

Conventional state representations in reinforcement learning often omit critical task-related details, presenting a significant challenge for val

发现论文，激发创造

选择感知: 用增强学习优化语言模型演员的状态描述

利用大规模语言模型（LLM）作为序贯决策制定任务的参与者，在机器人和游戏等领域应用它们的普适世界知识和规划能力；在此文献中，我们提出了一种称为BLINDER的方法，用于通过学习任务条件化状态描述的价值函数自动选择简明的状态描述，在NetHack（一种具有挑战性的视频游戏）和机器人操纵任务上评估BLINDER，我们的方法提高了任务成功率，减少了输入尺寸和计算成本，且能够在大规模语言模型参与者之间泛化。

Jul, 2023

自我完善的大型语言模型作为机器人深度强化学习的自动奖励函数设计者

我们提出了一个带有自我完善机制的新型大语言模型框架，用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验，结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越，突显了我们方法的效果和适用性。

Sep, 2023

LLM-State：开放世界长期规划的可扩展状态表示

本研究通过使用大规模语言模型（LLM）来解决开放式家庭环境中长期任务规划的问题。我们提出了一种新颖的可扩展状态表示方法，利用LLM的上下文理解和历史行为推理能力来持续扩展和更新对象属性。我们的模型在模拟和现实世界的任务规划场景中验证，表明在需要长期跟踪和推理状态的各种任务中，与基准方法相比取得了显著的改进。

Nov, 2023

RL/LLM 税务分类树：回顾强化学习与大型语言模型之间的协同效应

本文探讨将强化学习和大型语言模型两大领域结合的研究，提出了一个分类系统并分析了其协同效应和潜在问题。

Feb, 2024

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

从词语到行动：揭示LLM驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

利用大型语言模型的背景知识提高强化学习的样本效率

用大型语言模型(DLLM)提取环境背景知识的框架，可在多个强化学习任务中提高样本效率。

Jul, 2024

选择比努力更重要：大型语言模型促进高效的多智能体探索

本研究针对强化学习中存在的高维状态—动作空间中的多智能体探索效率问题，提出了一种新颖的系统方法LEMMAE。通过合理引导来自大型语言模型的任务相关知识，该方法显著提高探索的效率，并在挑战性基准上超越了现有的最优方法，某些情况下实现了10倍的加速。

Oct, 2024

大型语言模型在顺序决策中的建模能力

本研究探讨了大型语言模型（LLMs）在强化学习中处理复杂顺序决策问题的能力，填补了这一领域的研究空白。文章提出，通过生成奖励模型，LLMs能够有效地产生决策策略，即使没有特定任务的微调。此外，使用合成数据进行微调不仅显著提升了奖励建模能力，还减少了灾难性遗忘，扩展了其在顺序决策任务中的应用潜力。

Oct, 2024

利用大型语言模型先验的高效强化学习

本研究解决了强化学习在多样化环境中无法有效泛化的问题。通过将大型语言模型视作先验动作分布，并通过贝叶斯推断方法将其整合到强化学习框架中，显著提高了样本效率。实验结果表明，使用大型语言模型的先验大幅度减少了所需样本的数量，优化复杂度降低超过90%。

Oct, 2024