LLMs仍然无法规划；LRMs能做到吗？OpenAI的o1在PlanBench上的初步评估

Sep, 2024

LLMs仍然无法规划；LRMs能做到吗？OpenAI的o1在PlanBench上的初步评估

LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench

Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

TL;DR本研究针对当前大语言模型(LLMs)在规划能力上的不足，评估了OpenAI的新模型o1（草莓）的表现。通过在PlanBench基准上的实证分析，发现o1在规划能力上有显著提升，但仍未达到饱和状态，且在准确性和效率等方面仍需进一步研究以确保其可靠性。

Abstract

The ability to plan a course of action that achieves a desired state of affairs has long been considered a core competence of intelligent agents and has been an integral part of AI research since its inception. With the advent of Large Language Models (LLMs), there has been considerabl

发现论文，激发创造

大型语言模型仍无法规划 (面向规划和变化推理的LLM基准测试)

该研究提出了一种可扩展的评估框架来测试LLMs在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于LLMs推理能力的夸张的说法，并展示了GPT-3、Instruct-GPT3和BLOOM对这些任务的表现不佳。

Jun, 2022

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

研究了通用Web语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对LLM进行了评估，发现自主生成可执行计划的能力非常有限，只有约3%的成功率。

Feb, 2023

LLM+P：利用最优规划提升大型语言模型的性能

本文介绍了LLM + P框架，将经典计划器的优点结合到大语言模型中，可以通过自然语言描述解决计划问题，经过实验发现LLM + P可以提供大多数问题的最优解，而LLMs则无法为大多数问题提供甚至可行的计划。

Apr, 2023

大型语言模型的规划能力 - 一项关键调查

本文旨在研究LLLms在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估LLMs在自主规划和启发式两种不同模式下的表现，发现LLMs在自主规划方面的表现非常有限，但在启发式模式下，LLMs生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

LLMs无法策划，但可以在LLM-Modulo框架中帮助策划

大语言模型在规划和推理任务中的作用有很多混淆。我们认为，自回归LLM本身无法进行规划或自验证，并指出了文献中常见误解的原因。我们提出了LLM-模块化框架的愿景，将LLM的优势与外部基于模型的验证器在更紧密的双向交互方式中结合起来。我们将展示如何利用LLM获得驱动外部验证器的模型。我们还将论述LLM-模块化框架提供了更好的神经符号方法，通过更灵活的知识、问题和偏好规范，扩展了基于模型的规划/推理范围。

Feb, 2024

理解LLM智能体的规划：一项调查

将大型语言模型作为自主代理的规划模块，通过提供现有作品的分类和全面分析，讨论了任务分解、计划选择和外部模块等方向在LLM-Agent规划中的进展和挑战。

Feb, 2024

我们能依赖大型语言模型代理生成长远规划吗？以旅行规划者为例

本研究填补了关于基于大型语言模型（LLM）代理在复杂现实规划任务中行为的知识空白。通过使用TravelPlanner基准，探讨了LLM代理在处理长文本和多重约束时的鲁棒性以及改进策略。研究发现，LLM在长规划分析中存在局限，但提出的反馈感知微调方法显著提高了性能，具有重要的应用潜力。

Aug, 2024

黑暗中的规划：无专家的LLM-符号规划管道

该研究解决了在自然语言描述的规划任务中，使用大型语言模型（LLMs）导致不一致推理和幻觉的问题。通过构建动作模式库并引入语义验证和排序模块，该方法实现了不需要专家干预的完全自动化规划管道，显示出在规划任务中的优越性，可能使更广泛的用户群体能够参与AI规划。

Sep, 2024

关于OpenAI的o1模型的规划能力：可行性、最优性和可推广性

本研究针对大型语言模型在规划能力方面的不足，评估了OpenAI的o1模型在多项基准任务中的表现，重点关注可行性、最优性和可推广性。研究发现，虽然后者在遵循任务约束方面优于GPT-4，但在空间复杂任务中的泛化能力和决策记忆管理仍存在瓶颈，为未来提升语言模型的规划能力提供了重要方向。

Sep, 2024

草莓田中的规划：评估和改进LRM o1的规划与调度能力

本研究针对大语言模型（LLM）在规划能力上的不足，提出了一种新的大型推理模型（LRM）o1的评估方法。研究显示，o1在规划与调度基准测试中表现优于传统自回归LLM，但代价较高且无法保证生成结果的正确性。通过将o1模型与外部验证器结合，构建LRM-Modulo系统，可以在提高性能的同时确保输出的正确性。

Oct, 2024