Apr, 2024

OSWorld: 多模态代理在真实计算机环境中的开放式任务评测

TL;DR通过引入 OSWorld,我们创建了一个包含 369 个计算机任务的基准,以评估多模态代理在开放领域中执行任意应用程序所涉及的计算机任务的能力。在 OSWorld 上进行的全面评估为开发多模态通用代理提供了宝贵的洞见,这是以前的基准测试无法实现的。