VisualWebArena: 在现实视觉网络任务中评估多模态代理
建立一个高度逼真和可重现的环境,专注于在网站上执行任务的智能代理,提供一组多样化、长期规划、模拟人类在互联网上例行执行的任务的基准任务以评估任务完成的功能正确性。
Jul, 2023
多模式大型语言模型在网页相关任务中表现出了很大的潜力,评估其在网页领域的性能仍然是一个挑战,因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试,其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs,如 Gemini Pro、Claude-3 系列和 GPT-4V (ision),我们揭示了重要挑战和性能差距。进一步的分析突出了当前 MLLMs 的限制,包括在文本丰富环境中缺乏足够的基础知识,并在低分辨率图像输入下表现不佳。我们相信 ench {} 将成为研究界宝贵的资源,并为网页相关应用的更加强大和多功能的 MLLMs 的创建做出贡献。
Apr, 2024
使用基于大型语言模型的代理程序研究通过 web 浏览器与软件的交互。通过提出基于 ServiceNow 平台的 29 个任务的远程托管基准 WorkArena,以及设计和评估此类代理程序的环境 BrowserGym,我们对其性能进行了实证评估,发现目前代理程序在工作区域上有一些潜力,但在实现完全的任务自动化方面还存在相当大的差距。尤其值得注意的是,我们的分析揭示了开源和闭源 LLM(大型语言模型)之间的显著性能差异,突出了该领域未来研究和发展的重要方向。
Mar, 2024
我们介绍了 WebVoyager,这是一种创新的大型多模态模型(LMM)驱动的网络代理,可以通过与真实网站的交互来完成用户指令的端到端。此外,我们提出了一种新的网络代理评估协议,以解决开放式网络代理任务的自动评估挑战,利用了 GPT-4V 的强大多模态理解能力。我们通过收集 15 个广泛使用的网站上的真实任务来评估我们的代理,并展示了 WebVoyager 获得了 55.7% 的任务成功率,大大超过了 GPT-4(所有工具)和 WebVoyager(仅文本)设置的表现,突显出 WebVoyager 在实际应用中的卓越能力。我们发现我们提出的自动评估与人类判断达到了 85.3% 的一致性,为在真实世界中进一步开发网络代理铺平了道路。
Jan, 2024
通过引入 OSWorld,我们创建了一个包含 369 个计算机任务的基准,以评估多模态代理在开放领域中执行任意应用程序所涉及的计算机任务的能力。在 OSWorld 上进行的全面评估为开发多模态通用代理提供了宝贵的洞见,这是以前的基准测试无法实现的。
Apr, 2024
多模态网站的自主体代理在逐渐演变的真实环境中完成复杂用户任务具有挑战性,提出了 MMInA,这是一个多跳和多模态评估综合互联网任务能力的基准,通过构建真实世界的多模态网站和综合任务评估协议,发现自主体代理在长链多跳互联网任务方面存在挑战,提出了一种简单的记忆增强方法,明显提高了代理的单跳和多跳网络浏览能力。
Apr, 2024
WebCanvas 是一种创新的在线评估框架,用于有效解决 Web 交互的动态特性,包含评估指标、基准数据集和注释工具,并开源了可进行在线推理和评估的代理框架。
Jun, 2024
本论文中,我们提出了 WebQA,它引入了一个具有挑战性的新测量标准,该标准涉及大规模最先进模型的困难之处,缺乏新颖对象的语言基础视觉表达和推理能力,但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型,这些模型可以回答问题,而不考虑源模态,从而使我们更接近不仅查询语言知识,而且查询更丰富的视觉在线世界的数字助手。
Sep, 2021
我们的研究探索多模式基础模型在可视化中的应用,利用多模式大语言模型 (LMM) 的视觉感知能力来开发自主可视化代理人 (AVAs),它们可以通过自然语言解释和实现用户定义的可视化目标。我们提出了 AVAs 设计的第一个框架,并展示了几种使用场景,以展示该提议范例的普适性。这些 AVAs 作为虚拟可视化助手可以协助领域专家完成可视化输出的参数选择,即使他们缺乏调整可视化输出的知识或专业技能。我们的初步探索和概念验证代理人表明,这种方法在需要解释以往可视化输出以选择适当的可视化参数时可广泛应用。我们与人工智能研究、医学可视化和放射学等领域的专家进行了非结构化访谈,并结合了他们的反馈,突出了 AVAs 的实用性和潜力。我们的研究表明,AVAs 代表了一种设计智能化可视化系统的通用范式,可实现高级可视化目标,为未来发展专家级可视化代理人铺平了道路。
Dec, 2023
本文介绍了 Arena-Web,一个基于 web 的开发和评估套件,用于开发、训练和测试各种机器人平台和场景的 DRL 导航规划器。该界面旨在直观而富有吸引力,为非专业人员提供易于使用的技术,通过 Arena-Web,训练和开发深度强化学习代理人变得简单易行,无需编写一行代码。
Feb, 2023