Jan, 2024

WebVoyager: 使用大型多模态模型构建端到端网络代理

TL;DR我们介绍了 WebVoyager,这是一种创新的大型多模态模型(LMM)驱动的网络代理,可以通过与真实网站的交互来完成用户指令的端到端。此外,我们提出了一种新的网络代理评估协议,以解决开放式网络代理任务的自动评估挑战,利用了 GPT-4V 的强大多模态理解能力。我们通过收集 15 个广泛使用的网站上的真实任务来评估我们的代理,并展示了 WebVoyager 获得了 55.7% 的任务成功率,大大超过了 GPT-4(所有工具)和 WebVoyager(仅文本)设置的表现,突显出 WebVoyager 在实际应用中的卓越能力。我们发现我们提出的自动评估与人类判断达到了 85.3% 的一致性,为在真实世界中进一步开发网络代理铺平了道路。