Jun, 2024

FlowBench: 重新审视以工作流为导向的基于 LLM 的智能体规划,并进行基准测试

TL;DRLLM 基于智能体是有前途的工具,用于通过迭代规划和行动来完成复杂任务。然而,在缺乏专业知识进行任务时,这些智能体容易出现计划幻觉。为了解决这个问题,初步尝试通过整合外部与工作流相关的知识来提高规划的可靠性。我们形式化了不同格式的工作流知识,并提出了 FlowBench,这是用于工作流指导规划的第一个基准。FlowBench 涵盖了 6 个领域中的 51 个不同场景,并以多种格式呈现知识。为了评估 LLM 在 FlowBench 上的表现,我们设计了一个多层次评估框架。我们评估了不同格式的工作流知识的功效,结果表明目前的 LLM 智能体在满意的规划方面需要相当的改进。我们希望我们具有挑战性的基准可以为未来的智能体规划研究铺平道路。