支持不完整用户查询的 LLM + 推理 + 规划在 API 存在的情况下
本研究探讨了大型语言模型是否能够将自然语言的目标翻译成结构化的计划语言。我们使用 GPT 3.5 变种进行了实验,结果表明大型语言模型更适合进行翻译而不是规划,虽然这些模型能够利用常识知识和推理填补自然语言目标中缺失的细节,但在涉及到数字或物理推理的任务中,它们可能会出现失败,并且对所使用的提示信息很敏感。
Feb, 2023
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件,利用 LLM 推理来启发性地完成经典规划器发出的部分计划,并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明,使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划,就能够比随机探索更少的执行步骤和环境重置,并同时恢复领域的基本行动语义。
Jun, 2024
通过结合传统规则基于的规划器与基于大型语言模型的规划器,利用 LLMs 的常识推理能力解决自动驾驶车辆面临的复杂场景,实现了最先进的性能,超越了所有现有的纯学习和基于规则的方法。
Dec, 2023
本文旨在研究 LLLms 在常识规划任务中的规划能力,通过在国际计划竞赛中生成一系列实例,并评估 LLMs 在自主规划和启发式两种不同模式下的表现,发现 LLMs 在自主规划方面的表现非常有限,但在启发式模式下,LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。
May, 2023
本文介绍了 LLM + P 框架,将经典计划器的优点结合到大语言模型中,可以通过自然语言描述解决计划问题,经过实验发现 LLM + P 可以提供大多数问题的最优解,而 LLMs 则无法为大多数问题提供甚至可行的计划。
Apr, 2023
NL2Plan 是第一个通用领域脱机驱动计划系统,利用大型语言模型通过逐步提取必要信息从短文本提示创建完整的 PDDL 描述,进而通过经典计划器解决问题,提供解决 15 个任务中 10 个任务的改进以及提高可解释性和 PDDL 创建协助工具的功能。
May, 2024
异步计划推理对于优化时间成本需要进行顺序和并行规划,这是具有挑战性的。本研究首次对大型语言模型(LLMs)在此任务上的成功进行了大规模研究。我们发现,代表性的闭源和开源 LLMs,包括 GPT-4 和 LLaMA-2,在缺乏关于任务解决过程的说明时表现不佳。我们提出了一种新颖技术,称为 Plan Like a Graph (PLaG),它将图形与自然语言提示相结合,取得了最先进的结果。我们表明,尽管 PLaG 可以提升模型性能,但在任务复杂性增加时,LLMs 仍然会遭受严重退化,凸显了利用 LLMs 模拟数字设备的局限性。我们认为这项研究是将 LLMs 用作高效自治代理的一个令人兴奋的步骤。
Feb, 2024
自主规划和调度是人工智能中增长最快的领域之一,本研究通过对 126 篇论文进行全面检视,调查了 LLMs 在地址规划问题的各个方面时的独特应用,并提出了八个类别:语言翻译、计划生成、模型构建、多智能体规划、交互规划、启发式优化、工具集成以及脑启发式规划,强调 LLMs 与传统符号规划器的结合展示出潜力,揭示出一种有前景的神经符号化方法。
Jan, 2024