LLM+P:利用最优规划提升大型语言模型的性能
本研究探讨了大型语言模型是否能够将自然语言的目标翻译成结构化的计划语言。我们使用 GPT 3.5 变种进行了实验,结果表明大型语言模型更适合进行翻译而不是规划,虽然这些模型能够利用常识知识和推理填补自然语言目标中缺失的细节,但在涉及到数字或物理推理的任务中,它们可能会出现失败,并且对所使用的提示信息很敏感。
Feb, 2023
研究了通用Web语料库上训练的语言模型的计划能力,开发了基于国际计划竞赛领域的基准套件,在自治、启发式和人机协作模式下对LLM进行了评估,发现自主生成可执行计划的能力非常有限,只有约3%的成功率。
Feb, 2023
自主规划和调度是人工智能中增长最快的领域之一,本研究通过对126篇论文进行全面检视,调查了LLMs在地址规划问题的各个方面时的独特应用,并提出了八个类别:语言翻译、计划生成、模型构建、多智能体规划、交互规划、启发式优化、工具集成以及脑启发式规划,强调LLMs与传统符号规划器的结合展示出潜力,揭示出一种有前景的神经符号化方法。
Jan, 2024
基于最近的研究,我们通过实验表明,大语言模型(LLMs)缺乏规划所需的必要技能。基于这些观察,我们提倡将LLMs与经典规划方法相结合的混合方法的潜力。然后,我们引入了一种新颖的混合方法SimPlan,并在一个新的具有挑战性的环境中评估其性能。我们在各种规划领域进行了大量实验,结果表明SimPlan明显优于现有的基于LLMs的规划器。
Feb, 2024
NL2Plan是第一个通用领域脱机驱动计划系统,利用大型语言模型通过逐步提取必要信息从短文本提示创建完整的PDDL描述,进而通过经典计划器解决问题,提供解决15个任务中10个任务的改进以及提高可解释性和PDDL创建协助工具的功能。
May, 2024
该研究解决了在自然语言描述的规划任务中,使用大型语言模型(LLMs)导致不一致推理和幻觉的问题。通过构建动作模式库并引入语义验证和排序模块,该方法实现了不需要专家干预的完全自动化规划管道,显示出在规划任务中的优越性,可能使更广泛的用户群体能够参与AI规划。
Sep, 2024
本研究针对大型语言模型(LLMs)在复杂规划问题中灵活性与复杂性之间的矛盾,提出了LLMFP框架,利用LLMs的推理和编程能力将规划问题形式化为优化问题,从而无需特定任务示例即可直接生成有效规划。研究结果表明,LLMFP在九个规划任务中平均实现了83.7%至86.8%的最优解率,显著超越了最佳基线,显示了良好的通用性和效率。
Oct, 2024