本文探讨将强化学习和大型语言模型两大领域结合的研究,提出了一个分类系统并分析了其协同效应和潜在问题。
Feb, 2024
现代大型语言模型(LLMs)在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有LLMs的本地性能。我们将LLMs部署为简单的多臂赌博机环境中的代理,使用完全基于环境描述和交互历史的LLM提示。通过实验,我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好,但得出的结论是在复杂环境中,可能需要非平凡的算法干预才能使LLMs代理能够做出理想的决策。
Mar, 2024
大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力,本文对现有文献进行了综述,概括了大规模语言模型增强学习与传统增强学习方法的特点,并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法,并讨论了其潜在应用、前景机会和挑战。
使用大型语言模型作为强化学习代理以解决对话式强化学习问题,通过提出的提示技术,演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略,并通过两个具体案例研究展示了该方法的实用性。
Apr, 2024
通过将大型语言模型与MEDIC框架结合,我们的研究旨在改善强化学习的样本效率,特别针对稀疏奖励领域和随机转换等问题,以提高 PPO 和 A2C 强化学习算法的样本复杂度,并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。
May, 2024
从理论角度出发,研究大型语言模型在物理世界中解决决策问题的原因,通过层次化强化学习模型,证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习,并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。
本论文提出了一种新的方法,利用在线模型选择算法在序列决策中高效地整合LLM代理,统计上显著优于传统决策算法和普通LLM代理,计算上避免了LLM梯度更新的高昂代价,并且在整个决策过程中只需要少量LLM调用。
Jun, 2024
用大型语言模型(DLLM)提取环境背景知识的框架,可在多个强化学习任务中提高样本效率。
Jul, 2024
利用大型语言模型(LLM)的LESR方法自主生成与任务相关的状态表示代码,提高网络映射的连贯性并促进高效训练,实验证明LESR在Mujoco任务的累积奖励上平均超过基准水平29%,在Gym-Robotics任务的成功率上平均超过基准水平30%。
本研究探讨了大型语言模型(LLMs)在强化学习中处理复杂顺序决策问题的能力,填补了这一领域的研究空白。文章提出,通过生成奖励模型,LLMs能够有效地产生决策策略,即使没有特定任务的微调。此外,使用合成数据进行微调不仅显著提升了奖励建模能力,还减少了灾难性遗忘,扩展了其在顺序决策任务中的应用潜力。
Oct, 2024