大型语言模型在顺序决策中的建模能力

Oct, 2024

大型语言模型在顺序决策中的建模能力

On the Modeling Capabilities of Large Language Models for Sequential Decision Making

Martin Klissarov, Devon Hjelm, Alexander Toshev, Bogdan Mazoure

TL;DR本研究探讨了大型语言模型（LLMs）在强化学习中处理复杂顺序决策问题的能力，填补了这一领域的研究空白。文章提出，通过生成奖励模型，LLMs能够有效地产生决策策略，即使没有特定任务的微调。此外，使用合成数据进行微调不仅显著提升了奖励建模能力，还减少了灾难性遗忘，扩展了其在顺序决策任务中的应用潜力。

Abstract

Large pretrained models are showing increasingly better performance in reasoning and planning tasks across different modalities, opening the possibility to leverage them for complex Sequential Decision Making problems. In this paper, we investigate the capabilities of →

发现论文，激发创造

序列决策泛化学习

介绍了一种师徒模仿式学习方法和一种将强化学习模型转化为自然语言理解模型的方法，使得上下文化语言模型能够被引入顺序决策问题空间中，实现更好的学习速度和泛化能力。

Oct, 2020

自我完善的大型语言模型作为机器人深度强化学习的自动奖励函数设计者

我们提出了一个带有自我完善机制的新型大语言模型框架，用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验，结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越，突显了我们方法的效果和适用性。

Sep, 2023

RL/LLM 税务分类树：回顾强化学习与大型语言模型之间的协同效应

本文探讨将强化学习和大型语言模型两大领域结合的研究，提出了一个分类系统并分析了其协同效应和潜在问题。

Feb, 2024

大型语言模型能否进行上下文探索？

现代大型语言模型（LLMs）在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有LLMs的本地性能。我们将LLMs部署为简单的多臂赌博机环境中的代理，使用完全基于环境描述和交互历史的LLM提示。通过实验，我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好，但得出的结论是在复杂环境中，可能需要非平凡的算法干预才能使LLMs代理能够做出理想的决策。

Mar, 2024

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

大型语言模型的偏差性加强学习器

大型语言模型通过上下文学习来学习包括简单bandit任务中的奖励最大化选择，本研究发现这些模型在编码奖励结果时存在相对价值偏差。

May, 2024

基于大型语言模型的高效强化学习搜索

通过将大型语言模型与MEDIC框架结合，我们的研究旨在改善强化学习的样本效率，特别针对稀疏奖励领域和随机转换等问题，以提高 PPO 和 A2C 强化学习算法的样本复杂度，并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。

May, 2024

大规模语言模型的高效顺序决策

本论文提出了一种新的方法，利用在线模型选择算法在序列决策中高效地整合LLM代理，统计上显著优于传统决策算法和普通LLM代理，计算上避免了LLM梯度更新的高昂代价，并且在整个决策过程中只需要少量LLM调用。

Jun, 2024

利用大型语言模型先验的高效强化学习

本研究解决了强化学习在多样化环境中无法有效泛化的问题。通过将大型语言模型视作先验动作分布，并通过贝叶斯推断方法将其整合到强化学习框架中，显著提高了样本效率。实验结果表明，使用大型语言模型的先验大幅度减少了所需样本的数量，优化复杂度降低超过90%。

Oct, 2024