Apr, 2024

通过合成用户输入测试和理解LLM代理的错误规划

TL;DR通过自动化测试和理解大型语言模型 (LLMs) 的错误规划,我们提出了一种名为 PDoctor 的新方法,将错误规划的检测建模为一个约束可满足性问题。通过定义领域特定语言 (DSL) 和合成各种输入,PDoctor 可以有效地检测代理规划中的多种错误,并为开发人员和用户提供有价值的洞察和错误特征。