开放式实地规划:挑战与基准构建
本研究旨在探讨语言模型是否具有生成具体执行计划的能力,并针对该问题提出了一个新的问题解决方案: G-PlanET。通过将高级目标和特定环境中物体的数据表输入,我们设计了一种迭代解码策略,并使用新的度量标准 KAS 评估模型执行计划的质量,实验结果表明,将环境信息编码为表格,迭代解码策略可以显著提高语言模型的表现。
Aug, 2022
本研究使用大型语言模型 (Large Language Models, LLMs) 作为规划师,以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了 LLM-Planner 方法进行 few-shot planning,同时提出通过物理接口增强 LLMs 的简单而有效的方法,实验结果表明该方法在 ALFRED 数据集上能够取得与使用全数据训练的基线模型相当的性能。
Dec, 2022
研究了通用 Web 语料库上训练的语言模型的计划能力,开发了基于国际计划竞赛领域的基准套件,在自治、启发式和人机协作模式下对 LLM 进行了评估,发现自主生成可执行计划的能力非常有限,只有约 3% 的成功率。
Feb, 2023
本文介绍了一个新颖的大型语言模型(LLM),在混合主动对话环境中对话,并通过制定规程计划引导用户,并在需要时激活安全保障措施。实验结果表明,该模型取得了 2.1 倍的改进,并在未知领域中显示出良好的泛化能力。
Feb, 2024
使用大型语言模型与符号规划器和基于代码执行的系统组成的模块化可解释的对话系统,在处理任务导向对话中解决了大型语言模型难于引导到任务目标和处理新颖基础的问题,并在具有抽象散点图的协作参考解决任务中显著优于之前的最新技术,包括在最具挑战性的情境中将人工评估的任务成功率从 56% 提高到 69%。
Oct, 2023
本文旨在研究 LLLms 在常识规划任务中的规划能力,通过在国际计划竞赛中生成一系列实例,并评估 LLMs 在自主规划和启发式两种不同模式下的表现,发现 LLMs 在自主规划方面的表现非常有限,但在启发式模式下,LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。
May, 2023
异步计划推理对于优化时间成本需要进行顺序和并行规划,这是具有挑战性的。本研究首次对大型语言模型(LLMs)在此任务上的成功进行了大规模研究。我们发现,代表性的闭源和开源 LLMs,包括 GPT-4 和 LLaMA-2,在缺乏关于任务解决过程的说明时表现不佳。我们提出了一种新颖技术,称为 Plan Like a Graph (PLaG),它将图形与自然语言提示相结合,取得了最先进的结果。我们表明,尽管 PLaG 可以提升模型性能,但在任务复杂性增加时,LLMs 仍然会遭受严重退化,凸显了利用 LLMs 模拟数字设备的局限性。我们认为这项研究是将 LLMs 用作高效自治代理的一个令人兴奋的步骤。
Feb, 2024
SayPlan 是一种可扩展的、基于 LLM 的、大规模任务规划方法,使用 3D 场景图表示,在多层和多房间环境中对机器人的任务进行规划,其方法包括利用 3DSG 的分层结构和引入经典路径规划算法来降低规划范围,并使用迭代重新规划以在图形模拟器中反馈使行动可行和避免规划失败的信息。我们在两个大规模环境上进行了评估,显示了我们的方法能够从抽象和自然语言指令中为移动机械手执行大规模、长范围任务计划。
Jul, 2023
本研究引入了一种新的方法,使用 PDDL 语言构建显式世界模型,并利用预训练的大型语言模型作为 PDDL 和校验器等纠正反馈的接口,以提高计划问题的效率和准确性。在不涉及用户互动的情况下,通过验证 PDDL 模型的正确性,我们制定计划来解决复杂任务并取得成功。
May, 2023