利用大型语言模型先验的高效强化学习

Oct, 2024

利用大型语言模型先验的高效强化学习

Efficient Reinforcement Learning with Large Language Model Priors

Xue Yan, Yan Song, Xidong Feng, Mengyue Yang, Haifeng Zhang...

TL;DR本研究解决了强化学习在多样化环境中无法有效泛化的问题。通过将大型语言模型视作先验动作分布，并通过贝叶斯推断方法将其整合到强化学习框架中，显著提高了样本效率。实验结果表明，使用大型语言模型的先验大幅度减少了所需样本的数量，优化复杂度降低超过90%。

Abstract

In Sequential Decision-Making (SDM) tasks, methods like Reinforcement Learning (RL) and heuristic search have made notable advances in specific cases. However, they often require extensive exploration and face ch

发现论文，激发创造

RL/LLM 税务分类树：回顾强化学习与大型语言模型之间的协同效应

本文探讨将强化学习和大型语言模型两大领域结合的研究，提出了一个分类系统并分析了其协同效应和潜在问题。

Feb, 2024

大型语言模型能否进行上下文探索？

现代大型语言模型（LLMs）在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有LLMs的本地性能。我们将LLMs部署为简单的多臂赌博机环境中的代理，使用完全基于环境描述和交互历史的LLM提示。通过实验，我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好，但得出的结论是在复杂环境中，可能需要非平凡的算法干预才能使LLMs代理能够做出理想的决策。

Mar, 2024

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

基于大型语言模型的高效强化学习搜索

通过将大型语言模型与MEDIC框架结合，我们的研究旨在改善强化学习的样本效率，特别针对稀疏奖励领域和随机转换等问题，以提高 PPO 和 A2C 强化学习算法的样本复杂度，并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。

May, 2024

从词语到行动：揭示LLM驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

大规模语言模型的高效顺序决策

本论文提出了一种新的方法，利用在线模型选择算法在序列决策中高效地整合LLM代理，统计上显著优于传统决策算法和普通LLM代理，计算上避免了LLM梯度更新的高昂代价，并且在整个决策过程中只需要少量LLM调用。

Jun, 2024

利用大型语言模型的背景知识提高强化学习的样本效率

用大型语言模型(DLLM)提取环境背景知识的框架，可在多个强化学习任务中提高样本效率。

Jul, 2024

LLM增强型状态表示用于强化学习

利用大型语言模型(LLM)的LESR方法自主生成与任务相关的状态表示代码，提高网络映射的连贯性并促进高效训练，实验证明LESR在Mujoco任务的累积奖励上平均超过基准水平29%，在Gym-Robotics任务的成功率上平均超过基准水平30%。

Jul, 2024

大型语言模型在顺序决策中的建模能力

本研究探讨了大型语言模型（LLMs）在强化学习中处理复杂顺序决策问题的能力，填补了这一领域的研究空白。文章提出，通过生成奖励模型，LLMs能够有效地产生决策策略，即使没有特定任务的微调。此外，使用合成数据进行微调不仅显著提升了奖励建模能力，还减少了灾难性遗忘，扩展了其在顺序决策任务中的应用潜力。

Oct, 2024