OmniACT：实现桌面和网络的多模态通用自主代理的数据集和基准

Feb, 2024

OmniACT：实现桌面和网络的多模态通用自主代理的数据集和基准

OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web

Raghav Kapoor, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble...

TL;DR通过使用 OmniACT 数据集和基准测试，该研究介绍了评估代理程序生成可执行计算机任务的能力的一种新方法，并展示了当前最强的基线语言模型代理（GPT-4）在该基准测试中表现最好。然而，与人类能力相比，它仅达到 15％，这突显了传统网络代理在生成可完成任务的可执行脚本方面的挑战。该基准测试为衡量和评估语言模型代理在自动化计算机任务方面的进展提供了平台，并激励未来研究努力构建大型语言模型和计算机屏幕的视觉基础的多模态模型。

Abstract

For decades, human-computer interaction has fundamentally been manual. Even today, almost all productive work done on the computer necessitates human input at every step. autonomous virtual agents represent an exciting step in automating many of these menial tasks. Virtual agents would

autonomous virtual agents omniact executable programs benchmark language model agents

发现论文，激发创造

OSWorld: 多模态代理在真实计算机环境中的开放式任务评测

通过引入 OSWorld，我们创建了一个包含 369 个计算机任务的基准，以评估多模态代理在开放领域中执行任意应用程序所涉及的计算机任务的能力。在 OSWorld 上进行的全面评估为开发多模态通用代理提供了宝贵的洞见，这是以前的基准测试无法实现的。

Apr, 2024

AUTOACT：自主规划的自动代理学习

AutoAct 是一个自动的代理学习框架，不依赖于大规模标注数据和闭源模型的合成轨迹。它通过自动合成规划轨迹和分工策略来实现多功能单一模型，在不同的 LLMs 上获得比强基准更好或类似的性能。

Jan, 2024

VisualWebArena: 在现实视觉网络任务中评估多模态代理

通过对多模态网络代理的性能进行评估，我们引入了 VisualWebArena，它是一个用于评估自主多模态代理在具有视觉基础任务方面性能的基准。我们对现有的自主代理进行了广泛的评估，并揭示了文本模型的几个限制以及现有多模态语言代理能力上的差距。

Jan, 2024

交互式代理基础模型

提出了一种交互式代理基础模型，采用新颖的多任务代理训练范式，实现了跨领域、数据集和任务训练 AI 代理的能力，展示了其在机器人技术、游戏 AI 和医疗保健领域的性能，支持多模态和多任务学习。

Feb, 2024

ViLPAct: 多模态人体活动组合泛化基准测试

介绍了 ViLPAct，这是一个视觉 - 语言基准，用于人类活动计划。数据集包括 2.9k 视频，通过众包方式扩展了人的意图。据我们的广泛实验表明，主要的挑战是组合泛化和有效利用两种模态的信息。

Oct, 2022

OS-Copilot：面向具有自我改进能力的通才计算机代理

介绍了 OS-Copilot 框架，用于构建能够与操作系统中包括网络、代码终端、文件、多媒体和各种第三方应用程序在内的综合元素进行交互的通用型代理，并使用该框架创建了自我完善的具体化代理 FRIDAY，以自动化进行一般的计算机任务，在通用人工智能助理基准测试 GAIA 上，FRIDAY 通过积累来自以前任务的技能，表现出对未见过应用程序的强大泛化能力，超越了以前的方法 35％，同时提供了对 Excel 和 Powerpoint 进行控制和自我改进的数量和定量证据，该研究为未来更高能力和通用性的计算机代理提供了基础和见解。

Feb, 2024

Mind2Web: 通往 Web 的通才智能代理

使用 Mind2Web 数据集，作者构建了能够利用大型语言模型（LLMs）构建通用 Web 代理的解决方案，该方案使用实际网站而非模拟网站，并提供广泛的用户交互图案。

Jun, 2023

任务驱动的具有体感的对话智能体（TEACh）

引入 TEACh 数据集，通过三个基准测试，研究基于人类空间的机器人必须能够与人进行自然语言交互，理解和执行指令，使用会话来解决模糊性并从错误中恢复的具体挑战。

Oct, 2021

OmAgent: 复杂视频理解的多模态代理框架与任务分割

OmAgent 是一个能够在多模态环境下高效地存储和检索视频帧的系统，通过动态调用 API 和工具进行查询处理和准确性增强，可以确保鲁棒的视频理解，显著减少信息丢失。

Jun, 2024

机器人操控的语义增强和动作分块的泛化和效率

通过语义增强和行为表征，我们开发了一个高效的系统（RoboAgent）来训练具备多任务操作技能的通用智能体，使用少量多样的多模态数据集，能够展示不同的技能并在新颖的场景中表现出很好的泛化性能。

Sep, 2023