May, 2024

WorkBench: 现实工作场所环境下代理人的基准数据集

TL;DRWorkBench 是一个用于评估工作场所环境中代理程序执行任务能力的基准数据集,其中包含五个数据库、26 个工具和 690 个任务。通过对五种现有代理程序在 WorkBench 上的评估,发现它们成功完成任务的比例在 3%(Llama2-70B)到 43%(GPT-4)之间,同时也揭示了代理程序在常见商务活动中的能力弱点,进而引发对其在高风险工作环境中使用的质疑。