Sep, 2024

Windows代理竞技场:大规模评估多模态操作系统代理

TL;DR本研究解决了在真实环境中评估计算机代理表现的挑战,包括现有基准测试的限制及其评估速度缓慢的问题。通过引入Windows代理竞技场,我们提供一个专注于Windows操作系统的可重复环境,创建了150多个多样化任务,旨在提高代理的规划和工具使用能力,这一评估方法可在20分钟内完成完整测试。最显著的发现是新代理Navi在Windows领域的成功率为19.5%,比无辅助人类低,但在Web基准Mind2Web上表现良好,展示了该领域未来研究的潜力。