AutoPlanBench: 从 PDDL 自动生成 LLM 规划器的基准测试
NL2Plan 是第一个通用领域脱机驱动计划系统,利用大型语言模型通过逐步提取必要信息从短文本提示创建完整的 PDDL 描述,进而通过经典计划器解决问题,提供解决 15 个任务中 10 个任务的改进以及提高可解释性和 PDDL 创建协助工具的功能。
May, 2024
对于自然语言任务描述生成 PDDL 代码的能力,存在评估困难,因此引入了一个基准测试数据集 benchmarkName,包括 132,037 个文本到 PDDL 对,通过对几种语言模型的评估表明了该任务的复杂性。
Jul, 2024
提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统,对大型语言模型和提示进行了广泛实验,并探索了基线任务规划器的多个改进,预计该基准工具将加快语言导向的任务规划器的发展。
Feb, 2024
研究了通用 Web 语料库上训练的语言模型的计划能力,开发了基于国际计划竞赛领域的基准套件,在自治、启发式和人机协作模式下对 LLM 进行了评估,发现自主生成可执行计划的能力非常有限,只有约 3% 的成功率。
Feb, 2023
本文介绍了 LLM + P 框架,将经典计划器的优点结合到大语言模型中,可以通过自然语言描述解决计划问题,经过实验发现 LLM + P 可以提供大多数问题的最优解,而 LLMs 则无法为大多数问题提供甚至可行的计划。
Apr, 2023
最近,大型语言模型的不断进展引发了任务自动化的火花,其将用户指令描述的复杂任务分解为子任务,并调用外部工具执行它们,在自主代理中起着核心作用。然而,缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此,我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言,任务自动化可以分为三个关键阶段:任务分解,工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集,我们引入了工具图的概念来表示用户意图中的分解任务,并采用反指导方法来模拟用户指令和注释。此外,我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明,TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合,TaskBench 相对于人工评估具有高一致性,可以作为 LLM-based 自主代理的全面而可靠的基准。
Nov, 2023
科学实验的自动生成协议,通过使用基于伪代码表示的生物协议数据集进行评估,并评估 GPT-3 和 GPT-4 在生成科学协议方面的能力和鲁棒性。
Oct, 2023
LLM 基于智能体是有前途的工具,用于通过迭代规划和行动来完成复杂任务。然而,在缺乏专业知识进行任务时,这些智能体容易出现计划幻觉。为了解决这个问题,初步尝试通过整合外部与工作流相关的知识来提高规划的可靠性。我们形式化了不同格式的工作流知识,并提出了 FlowBench,这是用于工作流指导规划的第一个基准。FlowBench 涵盖了 6 个领域中的 51 个不同场景,并以多种格式呈现知识。为了评估 LLM 在 FlowBench 上的表现,我们设计了一个多层次评估框架。我们评估了不同格式的工作流知识的功效,结果表明目前的 LLM 智能体在满意的规划方面需要相当的改进。我们希望我们具有挑战性的基准可以为未来的智能体规划研究铺平道路。
Jun, 2024
NATURAL PLAN 是一个真实的自然语言规划基准,包含三个关键任务:旅行规划、会议规划和日历安排。在任务的全信息下评估了 LLMs 的规划能力,通过提供 Google Flights、Google Maps 和 Google Calendar 等工具的输出作为模型的上下文,消除了在规划评估中使用工具环境的需要。我们观察到 NATURAL PLAN 对于现有模型来说是一个具有挑战性的基准。例如,在旅行规划中,GPT-4 和 Gemini 1.5 Pro 仅能分别实现 31.1% 和 34.8% 的解决率。当问题复杂度增加时,模型性能急剧下降:当有 10 个城市时,所有模型的表现均低于 5%,凸显了现有 LLMs 在自然语言规划方面存在的重大差距。我们还对 NATURAL PLAN 进行了全面的剔除研究,以进一步阐明自我修正、少样本泛化以及长上下文中的规划对于改善 LLM 规划的 (无) 效性。
Jun, 2024