使用大型语言模型(LLMs)的互动规划技术,通过机器人收集环境中缺失的信息并推断底层问题的状态,从而指导机器人执行所需的动作。
Dec, 2023
从理论角度出发,研究大型语言模型在物理世界中解决决策问题的原因,通过层次化强化学习模型,证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习,并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。
May, 2024
提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件,利用 LLM 推理来启发性地完成经典规划器发出的部分计划,并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明,使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划,就能够比随机探索更少的执行步骤和环境重置,并同时恢复领域的基本行动语义。
Jun, 2024
大型语言模型与符号规划器结合的神经符号框架,为解决涉及体验代理的复杂计划任务提供更快速和高效的解决方案。
Aug, 2023
本文主要介绍了使用基于强化学习的调解模型,来解决使用大型语言模型进行高级指令的效率和成本问题,并在四种实验环境下验证了该方法的准确性和效率。
Jun, 2023
使用大型语言模型作为强化学习代理以解决对话式强化学习问题,通过提出的提示技术,演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略,并通过两个具体案例研究展示了该方法的实用性。
Apr, 2024
本文提出了 AdaPlanner,一种基于闭环反馈的语言模型智能体自适应地改进生成的计划,并通过新的技能发现机制,使其能够在更复杂的任务和环境中实现更好的连续决策性能,实验结果表明 AdaPlanner 在 ALFWorld 和 MiniWoB++ 环境中优于现有的基线算法。
May, 2023
提出了一种名为 ELLM(LLM 探索)的方法,它利用来自文本语料库的背景知识来塑造探索,通过利用大规模语言模型预训练,无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向,通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验,证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖,并且在一系列下游任务中通常与或优于性能。
Feb, 2023
利用强化学习解决长期和拓展性任务很具挑战性,特别是在没有先验知识的情况下,为了提高样本效率,本文通过利用 LLMs 的规划能力结合强化学习的环境学习,构建了一个层次化代理,用于解决长期任务,并在 MiniGrid、SkillHack 和 Crafter 等仿真环境以及实际机械臂的块操作任务中验证了该方法的优越性能,且训练完成后不需要依赖 LLMs 进行部署。
Nov, 2023
大语言模型在网页导航等交互决策任务中已成功应用,我们提出了一种基于状态空间探索的交互式任务建模方法,通过动作与状态转换来完成任务,实现了灵活的回溯以提高性能。实验结果表明,我们的 LASER 代理在网页导航任务中明显优于以往的方法,并且与人类表现之间的差距缩小。
Sep, 2023