Jan, 2024

GPT-4V 是一种通用的互联网代理系统,具有视觉能力

TL;DR本文研究了大型多模态模型 (LMMs),特别是 GPT-4V (ision) 和 Gemini 的最新进展,扩展了多模态模型的能力边界,超出了传统任务如图像标题生成和视觉问答。我们提出了 SEEACT,一种利用 LMMs 的通用网络代理,可以根据自然语言指令在任何给定的网站上完成任务。通过在最新的 MIND2WEB 基准上进行评估,我们展示了 GPT-4V 在网络代理中的巨大潜力,如果我们将其文本计划手动转化为网站上的动作,它可以成功完成 50% 的任务,这大大优于仅针对网络代理进行优化的纯文本 LLMs,如 GPT-4 或更小的模型 (FLAN-T5 和 BLIP-2)。然而,转化仍然是一个主要的挑战,现有的 LMM 转化策略,如集合标记提示,并不适用于网络代理,而我们在本文中开发的最佳转化策略利用了 HTML 文本和视觉信息。然而,与理想转化仍然存在相当大的差距,这给进一步改进留下了充分的空间。