大型语言模型的规划能力 - 一项关键调查

May, 2023

大型语言模型的规划能力 - 一项关键调查

On the Planning Abilities of Large Language Models -- A Critical Investigation

Karthik Valmeekam, Matthew Marquez, Sarath Sreedharan, Subbarao Kambhampati

TL;DR本文旨在研究LLLms在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估LLMs在自主规划和启发式两种不同模式下的表现，发现LLMs在自主规划方面的表现非常有限，但在启发式模式下，LLMs生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

Abstract

Intrigued by the claims of emergent reasoning capabilities in llms trained on general web corpora, in this paper, we set out to investigate their planning capabilities. We aim to evaluate (1) the effectiveness of llms

发现论文，激发创造

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

研究了通用Web语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对LLM进行了评估，发现自主生成可执行计划的能力非常有限，只有约3%的成功率。

Feb, 2023

LLM+P：利用最优规划提升大型语言模型的性能

本文介绍了LLM + P框架，将经典计划器的优点结合到大语言模型中，可以通过自然语言描述解决计划问题，经过实验发现LLM + P可以提供大多数问题的最优解，而LLMs则无法为大多数问题提供甚至可行的计划。

Apr, 2023

理解大型语言模型在自动化规划方面的能力

该研究旨在探讨大型语言模型在自动计划中的应用，研究包括使用何种预训练数据最有效、微调或提示哪种方法最有效以及大型语言模型能否进行计划综合。

May, 2023

SayCanPay: 基于可学习领域知识的大型语言模型的启发式规划

结合大型语言模型和启发式规划的方法，该研究提出了一种通过利用大型语言模型的世界知识和启发式搜索原则来生成行动序列的新方法，该方法能够在规划过程中考虑行动的可行性和成本效益，评估行动的长期效果，并在广泛的评估中显示优于其他大型语言模型规划方法。

Aug, 2023

关于将大型语言模型（LLMs）纳入自动规划和调度（APS）的前景展望

自主规划和调度是人工智能中增长最快的领域之一，本研究通过对126篇论文进行全面检视，调查了LLMs在地址规划问题的各个方面时的独特应用，并提出了八个类别：语言翻译、计划生成、模型构建、多智能体规划、交互规划、启发式优化、工具集成以及脑启发式规划，强调LLMs与传统符号规划器的结合展示出潜力，揭示出一种有前景的神经符号化方法。

Jan, 2024

LLMs无法策划，但可以在LLM-Modulo框架中帮助策划

大语言模型在规划和推理任务中的作用有很多混淆。我们认为，自回归LLM本身无法进行规划或自验证，并指出了文献中常见误解的原因。我们提出了LLM-模块化框架的愿景，将LLM的优势与外部基于模型的验证器在更紧密的双向交互方式中结合起来。我们将展示如何利用LLM获得驱动外部验证器的模型。我们还将论述LLM-模块化框架提供了更好的神经符号方法，通过更灵活的知识、问题和偏好规范，扩展了基于模型的规划/推理范围。

Feb, 2024

理解LLM智能体的规划：一项调查

将大型语言模型作为自主代理的规划模块，通过提供现有作品的分类和全面分析，讨论了任务分解、计划选择和外部模块等方向在LLM-Agent规划中的进展和挑战。

Feb, 2024

评估和开发面向 LLMs 的规划感知技术

基于最近的研究，我们通过实验表明，大语言模型（LLMs)缺乏规划所需的必要技能。基于这些观察，我们提倡将LLMs与经典规划方法相结合的混合方法的潜力。然后，我们引入了一种新颖的混合方法SimPlan，并在一个新的具有挑战性的环境中评估其性能。我们在各种规划领域进行了大量实验，结果表明SimPlan明显优于现有的基于LLMs的规划器。

Feb, 2024

大型语言模型作为规划领域生成器

通过对7个大型语言模型进行实证分析，我们发现大型语言模型在从自然语言描述中生成正确的规划领域模型方面具有适中的能力。

Apr, 2024

黑暗中的规划：无专家的LLM-符号规划管道

该研究解决了在自然语言描述的规划任务中，使用大型语言模型（LLMs）导致不一致推理和幻觉的问题。通过构建动作模式库并引入语义验证和排序模块，该方法实现了不需要专家干预的完全自动化规划管道，显示出在规划任务中的优越性，可能使更广泛的用户群体能够参与AI规划。

Sep, 2024