LLM增强型状态表示用于强化学习
利用大规模语言模型(LLM)作为序贯决策制定任务的参与者,在机器人和游戏等领域应用它们的普适世界知识和规划能力;在此文献中,我们提出了一种称为BLINDER的方法,用于通过学习任务条件化状态描述的价值函数自动选择简明的状态描述,在NetHack(一种具有挑战性的视频游戏)和机器人操纵任务上评估BLINDER,我们的方法提高了任务成功率,减少了输入尺寸和计算成本,且能够在大规模语言模型参与者之间泛化。
Jul, 2023
我们提出了一个带有自我完善机制的新型大语言模型框架,用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验,结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越,突显了我们方法的效果和适用性。
Sep, 2023
本研究通过使用大规模语言模型(LLM)来解决开放式家庭环境中长期任务规划的问题。我们提出了一种新颖的可扩展状态表示方法,利用LLM的上下文理解和历史行为推理能力来持续扩展和更新对象属性。我们的模型在模拟和现实世界的任务规划场景中验证,表明在需要长期跟踪和推理状态的各种任务中,与基准方法相比取得了显著的改进。
Nov, 2023
大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力,本文对现有文献进行了综述,概括了大规模语言模型增强学习与传统增强学习方法的特点,并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法,并讨论了其潜在应用、前景机会和挑战。
Mar, 2024
从理论角度出发,研究大型语言模型在物理世界中解决决策问题的原因,通过层次化强化学习模型,证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习,并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。
May, 2024
本研究针对强化学习中存在的高维状态—动作空间中的多智能体探索效率问题,提出了一种新颖的系统方法LEMMAE。通过合理引导来自大型语言模型的任务相关知识,该方法显著提高探索的效率,并在挑战性基准上超越了现有的最优方法,某些情况下实现了10倍的加速。
Oct, 2024
本研究探讨了大型语言模型(LLMs)在强化学习中处理复杂顺序决策问题的能力,填补了这一领域的研究空白。文章提出,通过生成奖励模型,LLMs能够有效地产生决策策略,即使没有特定任务的微调。此外,使用合成数据进行微调不仅显著提升了奖励建模能力,还减少了灾难性遗忘,扩展了其在顺序决策任务中的应用潜力。
Oct, 2024
本研究解决了强化学习在多样化环境中无法有效泛化的问题。通过将大型语言模型视作先验动作分布,并通过贝叶斯推断方法将其整合到强化学习框架中,显著提高了样本效率。实验结果表明,使用大型语言模型的先验大幅度减少了所需样本的数量,优化复杂度降低超过90%。
Oct, 2024