通过合成用户输入测试和理解LLM代理的错误规划

Apr, 2024

通过合成用户输入测试和理解LLM代理的错误规划

Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs

Zhenlan Ji, Daoyuan Wu, Pingchuan Ma, Zongjie Li, Shuai Wang

TL;DR通过自动化测试和理解大型语言模型 (LLMs) 的错误规划，我们提出了一种名为 PDoctor 的新方法，将错误规划的检测建模为一个约束可满足性问题。通过定义领域特定语言 (DSL) 和合成各种输入，PDoctor 可以有效地检测代理规划中的多种错误，并为开发人员和用户提供有价值的洞察和错误特征。

Abstract

Agents based on large language models (LLMs) have demonstrated effectiveness in solving a wide range of tasks by integrating LLMs with key modules such as planning, memory, and tool usage. Increasingly, customers are adopting →

发现论文，激发创造

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

研究了通用Web语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对LLM进行了评估，发现自主生成可执行计划的能力非常有限，只有约3%的成功率。

Feb, 2023

大型语言模型的规划能力 - 一项关键调查

本文旨在研究LLLms在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估LLMs在自主规划和启发式两种不同模式下的表现，发现LLMs在自主规划方面的表现非常有限，但在启发式模式下，LLMs生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

AdaPlanner：使用语言模型的自适应反馈规划

本文提出了 AdaPlanner，一种基于闭环反馈的语言模型智能体自适应地改进生成的计划，并通过新的技能发现机制，使其能够在更复杂的任务和环境中实现更好的连续决策性能，实验结果表明 AdaPlanner 在 ALFWorld 和 MiniWoB++ 环境中优于现有的基线算法。

May, 2023

LLM基于代理的高层行为的形式化规范

通过提出一个简化的高级生成框架，我们旨在减轻设计和实现新代理的困难，该框架允许用户使用线性时态逻辑（LTL）指定期望的代理行为，并通过约束解码器确保产生的输出展现所需的行为，从而迅速设计、实施和尝试不同的以LLM为基础的代理，而不必考虑如何实现或执行。

Oct, 2023

正式-LLM：将正式语言和自然语言整合为可控制的基于LLM的代理人

该篇论文提出了一种名为``Formal-LLM''的新型框架用于基于LLM的代理，通过结合自然语言的表现力和形式语言的准确性，使规划过程具有控制性，从而防止代理生成无效和不成功的计划，并且通过实验验证了该框架在任务性能上取得的超过50%的整体性能提升，为在规划的有效性至关重要的应用场景中更广泛地利用LLM提供了可能性。

Feb, 2024

LLMs无法策划，但可以在LLM-Modulo框架中帮助策划

大语言模型在规划和推理任务中的作用有很多混淆。我们认为，自回归LLM本身无法进行规划或自验证，并指出了文献中常见误解的原因。我们提出了LLM-模块化框架的愿景，将LLM的优势与外部基于模型的验证器在更紧密的双向交互方式中结合起来。我们将展示如何利用LLM获得驱动外部验证器的模型。我们还将论述LLM-模块化框架提供了更好的神经符号方法，通过更灵活的知识、问题和偏好规范，扩展了基于模型的规划/推理范围。

Feb, 2024

理解LLM智能体的规划：一项调查

将大型语言模型作为自主代理的规划模块，通过提供现有作品的分类和全面分析，讨论了任务分解、计划选择和外部模块等方向在LLM-Agent规划中的进展和挑战。

Feb, 2024

NL2Plan: 从最简文本描述中驱动的鲁棒性LLM规划

NL2Plan是第一个通用领域脱机驱动计划系统，利用大型语言模型通过逐步提取必要信息从短文本提示创建完整的PDDL描述，进而通过经典计划器解决问题，提供解决15个任务中10个任务的改进以及提高可解释性和PDDL创建协助工具的功能。

May, 2024

大型语言模型的多阶段规划任务中的类人推理框架

我们在此研究中专注于解决多阶段旅行计划问题，通过开发类似人类规划模式的规划框架来提高LLM代理的规划能力，实验结果表明我们的框架与GPT-4-Turbo结合能够在旅行计划任务中获得显著的性能提升。

May, 2024

我们能依赖大型语言模型代理生成长远规划吗？以旅行规划者为例

本研究填补了关于基于大型语言模型（LLM）代理在复杂现实规划任务中行为的知识空白。通过使用TravelPlanner基准，探讨了LLM代理在处理长文本和多重约束时的鲁棒性以及改进策略。研究发现，LLM在长规划分析中存在局限，但提出的反馈感知微调方法显著提高了性能，具有重要的应用潜力。

Aug, 2024