OSWorld: 多模态代理在真实计算机环境中的开放式任务评测

Apr, 2024

OSWorld: 多模态代理在真实计算机环境中的开放式任务评测

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao...

TL;DR通过引入 OSWorld，我们创建了一个包含 369 个计算机任务的基准，以评估多模态代理在开放领域中执行任意应用程序所涉及的计算机任务的能力。在 OSWorld 上进行的全面评估为开发多模态通用代理提供了宝贵的洞见，这是以前的基准测试无法实现的。

Abstract

autonomous agents that accomplish complex computer tasks with minimal human interventions have the potential to transform human-computer interaction, significantly enhancing accessibility and productivity. Howeve

autonomous agents osworld benchmark computer tasks multimodal agents

发现论文，激发创造

AndroidWorld: 一个用于自主智能体动态基准测试的环境

自主代理、AndroidWorld、奖励信号、编程任务工作流、计算机控制代理

May, 2024

VisualWebArena: 在现实视觉网络任务中评估多模态代理

通过对多模态网络代理的性能进行评估，我们引入了 VisualWebArena，它是一个用于评估自主多模态代理在具有视觉基础任务方面性能的基准。我们对现有的自主代理进行了广泛的评估，并揭示了文本模型的几个限制以及现有多模态语言代理能力上的差距。

Jan, 2024

OmniACT：实现桌面和网络的多模态通用自主代理的数据集和基准

通过使用 OmniACT 数据集和基准测试，该研究介绍了评估代理程序生成可执行计算机任务的能力的一种新方法，并展示了当前最强的基线语言模型代理（GPT-4）在该基准测试中表现最好。然而，与人类能力相比，它仅达到 15％，这突显了传统网络代理在生成可完成任务的可执行脚本方面的挑战。该基准测试为衡量和评估语言模型代理在自动化计算机任务方面的进展提供了平台，并激励未来研究努力构建大型语言模型和计算机屏幕的视觉基础的多模态模型。

Feb, 2024

WebArena：一个构建自主代理的真实网络环境

建立一个高度逼真和可重现的环境，专注于在网站上执行任务的智能代理，提供一组多样化、长期规划、模拟人类在互联网上例行执行的任务的基准任务以评估任务完成的功能正确性。

Jul, 2023

JARVIS-1: 开放世界多任务智能体及伴有增强记忆的多模态语言模型

JARVIS-1 是一个在开放世界中能够感知多模态输入、生成复杂计划和执行控制的智能体，在 Minecraft 宇宙中完成了超过 200 个任务，包括了从入门到中级难度的任务，并且在长期目标挖掘任务中取得了无与伦比的 12.5% 完成率，比以往记录提高了 5 倍以上。通过多模态记忆，JARVIS-1 能够不断自我提升，实现了更通用的智能和改进的自主性。

Nov, 2023

DISCOVERYWORLD：开发和评估自动科学发现代理的虚拟环境

开发和评估 AI 代理的端到端科学推理能力具有挑战性，本文介绍了 DISCOVERYWORLD，这是第一个用于开发和评估代理执行完整的新颖科学发现循环能力的虚拟环境，通过包含不同挑战任务，覆盖放射性同位素约会、火箭科学和蛋白质组学等多个主题，鼓励培养一般的发现技能而非特定任务的解决方案，提供了自动度量指标来评估性能，发现在 DISCOVERYWORLD 任务中，之前在其他环境中表现良好的强基线代理却遇到了困难，这表明 DISCOVERYWORLD 捕捉到了部分新颖的发现挑战，并可能加速代理的科学发现能力的发展和评估。

Jun, 2024

WebVoyager: 使用大型多模态模型构建端到端网络代理

我们介绍了 WebVoyager，这是一种创新的大型多模态模型（LMM）驱动的网络代理，可以通过与真实网站的交互来完成用户指令的端到端。此外，我们提出了一种新的网络代理评估协议，以解决开放式网络代理任务的自动评估挑战，利用了 GPT-4V 的强大多模态理解能力。我们通过收集 15 个广泛使用的网站上的真实任务来评估我们的代理，并展示了 WebVoyager 获得了 55.7% 的任务成功率，大大超过了 GPT-4（所有工具）和 WebVoyager（仅文本）设置的表现，突显出 WebVoyager 在实际应用中的卓越能力。我们发现我们提出的自动评估与人类判断达到了 85.3% 的一致性，为在真实世界中进一步开发网络代理铺平了道路。

Jan, 2024

UbuntuWorld 1.0 LTS - Ubuntu 操作系统自动化问题解决和故障排除平台

本文介绍了 UbuntuWorld 1.0 LTS 平台，该平台旨在开发 Ubuntu 操作系统自动技术支持代理。我们使用 Bash 终端作为 Ubuntu 环境的模拟器，演示了采用强化学习技术来解决该环境中的基本问题解决和故障排除的实用性，并提供了插入和评估不同类型代理的 Python 包的接口。使用在线支持论坛（如 AskUbuntu）的数据来集成自动代理学习过程，最后证明使用此数据能够显著提高代理学习效果。我们认为该平台可以作为自动技术支持研究的实际测试基地。

Sep, 2016

GUI-WORLD: GUI 导向的多模态基于 LLM 的 Agent 数据集

该研究论文介绍了一个新的数据集，名为 GUI-World，包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释，评估了当前最先进的 MLLMs（包括 ImageLLMs 和 VideoLLMs）在理解各种 GUI 内容方面的能力，发现 ImageLLMs 在没有手动注释的关键帧或操作历史的情况下难以处理动态 GUI 内容，而 VideoLLMs 在 GUI 视频数据集稀缺的情况下在所有 GUI 任务中表现不佳。然而，作者通过利用 Fine-tuned VideoLLM 作为 GUI agent 迈出了一步，展示了对各种 GUI 任务的改进理解，但由于基础 LLMs 的性能限制，使用 VideoLLMs 作为 GUI agent 仍然是一个重大挑战，研究为未来动态 GUI 内容理解的研究提供了有价值的见解。

Jun, 2024

CRAB：跨环境多模态语言模型智能体的对比基准

以 Crab 为基础的跨环境任务自动评估框架是第一套旨在支持跨环境任务的代理系统评估框架，包括了图形细粒度评估方法和任务构建的高效机制。

Jul, 2024