该研究旨在探讨大型语言模型在自动计划中的应用,研究包括使用何种预训练数据最有效、微调或提示哪种方法最有效以及大型语言模型能否进行计划综合。
May, 2023
本文旨在研究 LLLms 在常识规划任务中的规划能力,通过在国际计划竞赛中生成一系列实例,并评估 LLMs 在自主规划和启发式两种不同模式下的表现,发现 LLMs 在自主规划方面的表现非常有限,但在启发式模式下,LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。
本研究引入了一种新的方法,使用 PDDL 语言构建显式世界模型,并利用预训练的大型语言模型作为 PDDL 和校验器等纠正反馈的接口,以提高计划问题的效率和准确性。在不涉及用户互动的情况下,通过验证 PDDL 模型的正确性,我们制定计划来解决复杂任务并取得成功。
研究了通用 Web 语料库上训练的语言模型的计划能力,开发了基于国际计划竞赛领域的基准套件,在自治、启发式和人机协作模式下对 LLM 进行了评估,发现自主生成可执行计划的能力非常有限,只有约 3% 的成功率。
Feb, 2023
本研究探讨了大型语言模型是否能够将自然语言的目标翻译成结构化的计划语言。我们使用 GPT 3.5 变种进行了实验,结果表明大型语言模型更适合进行翻译而不是规划,虽然这些模型能够利用常识知识和推理填补自然语言目标中缺失的细节,但在涉及到数字或物理推理的任务中,它们可能会出现失败,并且对所使用的提示信息很敏感。
提高大型语言模型的规划能力,研究领域包括基于上下文学习、微调,以及在未知领域的性能评估。
Jun, 2024
NL2Plan 是第一个通用领域脱机驱动计划系统,利用大型语言模型通过逐步提取必要信息从短文本提示创建完整的 PDDL 描述,进而通过经典计划器解决问题,提供解决 15 个任务中 10 个任务的改进以及提高可解释性和 PDDL 创建协助工具的功能。
May, 2024
用自动一致性检查策略显著改善由大型语言模型生成的 PDDL 模型的质量,并减少后续纠正工作的人力投入。
Apr, 2024
通过使用编程式的提示结构,可以促使大型语言模型在不同的环境、机器人能力和任务中进行计划生成,从而大大减少了任务规划中需要定义的领域知识。
Sep, 2022
提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件,利用 LLM 推理来启发性地完成经典规划器发出的部分计划,并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明,使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划,就能够比随机探索更少的执行步骤和环境重置,并同时恢复领域的基本行动语义。