BriefGPT.xyz
Ask
alpha
关键词
multi-tiered evaluation framework
搜索结果 - 1
FlowBench: 重新审视以工作流为导向的基于 LLM 的智能体规划,并进行基准测试
LLM 基于智能体是有前途的工具,用于通过迭代规划和行动来完成复杂任务。然而,在缺乏专业知识进行任务时,这些智能体容易出现计划幻觉。为了解决这个问题,初步尝试通过整合外部与工作流相关的知识来提高规划的可靠性。我们形式化了不同格式的工作流知识
→
PDF
19 days ago
Prev
Next