Jun, 2024

ShortcutsBench:一个基于 API 的代理的大规模现实世界基准测试

TL;DR该研究论文介绍了一个名为 ShortcutsBench 的大规模基准测试,用于评估基于 API 的代理程序在解决具有不同难度级别、任务类型和真实需求的任务中的性能。通过使用 5 个主流开源的以及 4 个闭源的大型语言模型进行实验,发现基于 API 的代理程序在处理与 API 选择、参数填充以及系统和用户请求必要信息相关的复杂查询时存在显著的局限性。