选择比努力更重要:大型语言模型促进高效的多智能体探索
提出了一种名为ELLM(LLM探索)的方法,它利用来自文本语料库的背景知识来塑造探索,通过利用大规模语言模型预训练,无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向,通过在Crafter游戏环境和Housekeep机器人模拟器中的实验,证明了ELLM训练的代理在预训练期间具有更好的常识行为覆盖,并且在一系列下游任务中通常与或优于性能。
Feb, 2023
利用大规模语言模型(LLM)作为序贯决策制定任务的参与者,在机器人和游戏等领域应用它们的普适世界知识和规划能力;在此文献中,我们提出了一种称为BLINDER的方法,用于通过学习任务条件化状态描述的价值函数自动选择简明的状态描述,在NetHack(一种具有挑战性的视频游戏)和机器人操纵任务上评估BLINDER,我们的方法提高了任务成功率,减少了输入尺寸和计算成本,且能够在大规模语言模型参与者之间泛化。
Jul, 2023
在复杂稀疏环境中,提出使用大型语言模型(LLMs)的内在引导探索(IGE-LLMs)框架,以解决强化学习中的长期操纵任务的问题。结果显示,IGE-LLMs在探索和长期操纵任务中表现出显著较高的性能,同时具有模块化性和对不同内在缩放参数的鲁棒性。
Sep, 2023
通过结合状态空间搜索和基于自然语言模型的查询,我们提出了一种混合代理方法neoplanner,以最大化状态值的上界来平衡探索和开发,并通过查询自然语言模型以生成行动计划,进一步提高了大规模状态空间和行动空间的顺序规划的性能。
Dec, 2023
现代大型语言模型(LLMs)在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有LLMs的本地性能。我们将LLMs部署为简单的多臂赌博机环境中的代理,使用完全基于环境描述和交互历史的LLM提示。通过实验,我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好,但得出的结论是在复杂环境中,可能需要非平凡的算法干预才能使LLMs代理能够做出理想的决策。
Mar, 2024
大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力,本文对现有文献进行了综述,概括了大规模语言模型增强学习与传统增强学习方法的特点,并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法,并讨论了其潜在应用、前景机会和挑战。
Mar, 2024
从理论角度出发,研究大型语言模型在物理世界中解决决策问题的原因,通过层次化强化学习模型,证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习,并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。
May, 2024
利用大型语言模型(LLM)的LESR方法自主生成与任务相关的状态表示代码,提高网络映射的连贯性并促进高效训练,实验证明LESR在Mujoco任务的累积奖励上平均超过基准水平29%,在Gym-Robotics任务的成功率上平均超过基准水平30%。
Jul, 2024
本研究解决了强化学习在多样化环境中无法有效泛化的问题。通过将大型语言模型视作先验动作分布,并通过贝叶斯推断方法将其整合到强化学习框架中,显著提高了样本效率。实验结果表明,使用大型语言模型的先验大幅度减少了所需样本的数量,优化复杂度降低超过90%。
Oct, 2024
本研究针对强化学习中稀疏奖励环境所面临的探索挑战,提出了一种教师-学生强化学习框架,利用大型语言模型作为教师,帮助代理通过细分复杂任务为子目标来学习。实验结果表明,此方法显著加速了学习速度,并在复杂任务中提高了探索效率,训练步骤的收敛速度比目前在稀疏奖励环境中设计的基线快30至200倍。
Oct, 2024