Jun, 2024

τ-bench:一种真实世界领域中工具 - 代理人 - 用户交互的基准

TL;DR现有的基准测试无法测试语言代理与人类用户的交互或遵循特定领域规则的能力,我们提出了 $ au$-bench,这是一个基准测试,模拟了语言模型模拟的用户与具备特定领域 API 工具和策略指南的语言代理之间的动态对话。我们采用了高效且忠实的评估过程,将对话结束时的数据库状态与带注释的目标状态进行比较。我们还提出了一种新的度量指标(pass^k),用于评估代理行为在多次试验中的可靠性。我们的实验证明,即使是最先进的函数调用代理(如 gpt-4o)在 < 50% 的任务上也能成功,并且不够一致(在零售领域,pass^8<25%)。我们的研究结果指出了需要提出方法来改善代理的行为一致性和可靠性。