关于大型语言模型的规划能力（一项带有提议基准的关键调查）

Feb, 2023

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark)

Karthik Valmeekam, Sarath Sreedharan, Matthew Marquez, Alberto Olmo, Subbarao Kambhampati

TL;DR研究了通用Web语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对LLM进行了评估，发现自主生成可执行计划的能力非常有限，只有约3%的成功率。

Abstract

Intrigued by the claims of emergent reasoning capabilities in LLMs trained on general web corpora, in this paper, we set out to investigate their planning capabilities. We aim to evaluate (1) how good LLMs are by themselves in generating and validating simple plans in commonsense plann

发现论文，激发创造

LLM+P：利用最优规划提升大型语言模型的性能

本文介绍了LLM + P框架，将经典计划器的优点结合到大语言模型中，可以通过自然语言描述解决计划问题，经过实验发现LLM + P可以提供大多数问题的最优解，而LLMs则无法为大多数问题提供甚至可行的计划。

Apr, 2023

大型语言模型的规划能力 - 一项关键调查

本文旨在研究LLLms在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估LLMs在自主规划和启发式两种不同模式下的表现，发现LLMs在自主规划方面的表现非常有限，但在启发式模式下，LLMs生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

关于将大型语言模型（LLMs）纳入自动规划和调度（APS）的前景展望

自主规划和调度是人工智能中增长最快的领域之一，本研究通过对126篇论文进行全面检视，调查了LLMs在地址规划问题的各个方面时的独特应用，并提出了八个类别：语言翻译、计划生成、模型构建、多智能体规划、交互规划、启发式优化、工具集成以及脑启发式规划，强调LLMs与传统符号规划器的结合展示出潜力，揭示出一种有前景的神经符号化方法。

Jan, 2024

LLMs无法策划，但可以在LLM-Modulo框架中帮助策划

大语言模型在规划和推理任务中的作用有很多混淆。我们认为，自回归LLM本身无法进行规划或自验证，并指出了文献中常见误解的原因。我们提出了LLM-模块化框架的愿景，将LLM的优势与外部基于模型的验证器在更紧密的双向交互方式中结合起来。我们将展示如何利用LLM获得驱动外部验证器的模型。我们还将论述LLM-模块化框架提供了更好的神经符号方法，通过更灵活的知识、问题和偏好规范，扩展了基于模型的规划/推理范围。

Feb, 2024

理解LLM智能体的规划：一项调查

将大型语言模型作为自主代理的规划模块，通过提供现有作品的分类和全面分析，讨论了任务分解、计划选择和外部模块等方向在LLM-Agent规划中的进展和挑战。

Feb, 2024

评估和开发面向 LLMs 的规划感知技术

基于最近的研究，我们通过实验表明，大语言模型（LLMs)缺乏规划所需的必要技能。基于这些观察，我们提倡将LLMs与经典规划方法相结合的混合方法的潜力。然后，我们引入了一种新颖的混合方法SimPlan，并在一个新的具有挑战性的环境中评估其性能。我们在各种规划领域进行了大量实验，结果表明SimPlan明显优于现有的基于LLMs的规划器。

Feb, 2024

大型语言模型作为规划领域生成器

通过对7个大型语言模型进行实证分析，我们发现大型语言模型在从自然语言描述中生成正确的规划领域模型方面具有适中的能力。

Apr, 2024

探索和基准测试大型语言模型的规划能力

提高大型语言模型的规划能力，研究领域包括基于上下文学习、微调，以及在未知领域的性能评估。

Jun, 2024

我们能依赖大型语言模型代理生成长远规划吗？以旅行规划者为例

本研究填补了关于基于大型语言模型（LLM）代理在复杂现实规划任务中行为的知识空白。通过使用TravelPlanner基准，探讨了LLM代理在处理长文本和多重约束时的鲁棒性以及改进策略。研究发现，LLM在长规划分析中存在局限，但提出的反馈感知微调方法显著提高了性能，具有重要的应用潜力。

Aug, 2024

黑暗中的规划：无专家的LLM-符号规划管道

该研究解决了在自然语言描述的规划任务中，使用大型语言模型（LLMs）导致不一致推理和幻觉的问题。通过构建动作模式库并引入语义验证和排序模块，该方法实现了不需要专家干预的完全自动化规划管道，显示出在规划任务中的优越性，可能使更广泛的用户群体能够参与AI规划。

Sep, 2024