CRAB：跨环境多模态语言模型智能体的对比基准

Jul, 2024

CRAB：跨环境多模态语言模型智能体的对比基准

CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents

Tianqi Xu, Linyao Chen, Dai-Jie Wu, Yanjun Chen, Zecheng Zhang...

TL;DR以 Crab 为基础的跨环境任务自动评估框架是第一套旨在支持跨环境任务的代理系统评估框架，包括了图形细粒度评估方法和任务构建的高效机制。

Abstract

The development of autonomous agents increasingly relies on Multimodal Language Models (MLMs) to perform tasks described in natural language with GUI environments, such as websites, desktop computers, or mobile phones. Existing benchmarks for MLM agents in interactive environments are

autonomous agents multimodal language models benchmark framework cross-environment tasks crab benchmark-v0

发现论文，激发创造

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

MobileAgentBench: 移动 LLM 代理的高效且用户友好的基准测试

通过提出 MobileAgentBench 这一高效且用户友好的基准测试工具，对现有移动代理进行全面和系统性的性能比较，以解决应用程序状态无穷和可行操作序列定义模糊的挑战。

Jun, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

LLMArena: 评估大型语言模型在动态多智能体环境中的能力

近期大型语言模型（LLM）在实现具备人类级智能的自主代理方面显示出了潜力，然而现有用于评估 LLM 代理的基准要么使用静态数据集，可能导致数据泄露，要么仅关注单一代理情景，忽略多代理交互的复杂性。我们引入了 LLMArena，这是一个新颖且易于扩展的框架，用于评估 LLM 在多代理动态环境中的各种能力。LLMArena 涵盖了七个不同的游戏环境，使用 Trueskill 评分来评估 LLM 代理的关键能力，包括空间推理、战略规划、数值推理、风险评估、沟通、对手建模和团队协作。通过对不同规模和类型的 LLM 进行广泛实验和人类评估，研究表明 LLM 在对手建模和团队协作方面仍有很长的发展道路，希望 LLMArena 能指导未来的研究，进一步增强 LLM 的这些能力，最终实现在动态多代理环境中更复杂和实用的应用。代码和数据将提供。

Feb, 2024

OSWorld: 多模态代理在真实计算机环境中的开放式任务评测

通过引入 OSWorld，我们创建了一个包含 369 个计算机任务的基准，以评估多模态代理在开放领域中执行任意应用程序所涉及的计算机任务的能力。在 OSWorld 上进行的全面评估为开发多模态通用代理提供了宝贵的洞见，这是以前的基准测试无法实现的。

Apr, 2024

评估大型语言模型作为人工智能研究代理 agent

我们提出了一种基于 LLM 的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。

Oct, 2023

复杂 Android 环境下大型语言模型代理的漏洞分析

大型语言模型 (LLM) 在特定领域的软件（如浏览器和游戏）中赋予智能代理执行复杂任务的能力。然而，应用于操作系统等通用软件系统时，LLM 代理面临三个主要挑战：广泛且动态的操作空间，跨应用程序的合作需求以及符合用户约束条件的最优解。本研究设计了环境和基准测试工具 AndroidArena，通过可扩展的、半自动化的方法构建了该基准。研究结果发现，即使是最先进的 LLM 代理在跨应用程序情景和遵守特定约束方面也存在困难。此外，通过对反思能力的失败进行实证分析，提出的探索策略将成功率提高了 27%。该工作首次揭示了 LLM 代理的细粒度弱点，并为未来研究提供了方向。AndroidArena 的环境、基准以及评估代码已在链接中公开发布。

Feb, 2024

AgentSims：用于大型语言模型评估的开放源码沙盒

使用 AgentSims 构建任务评估方法，解决现有评估方法的局限性，并提供易于使用的基础设施，供研究人员测试大语言模型的能力。

Aug, 2023

基于多样配置的移动设备控制代理的基准测试

通过引入 B-MoCA 基准测试，本研究针对移动设备控制代理开发自主代理，提高用户交互的效率和可访问性。在 Android 操作系统上创建了一个真实的基准测试，定义了 60 项常见日常任务，并通过随机化功能来评估代理的泛化性能。尽管代理们在执行简单任务方面展示出熟练性，但在复杂任务上的低效性凸显了未来研究改进其效果的重要机遇。

Apr, 2024

clembench-2024: 作为多动作代理的挑战性、动态、互补、多语言基准测试和底层灵活框架

利用大型语言模型自我对弈进行对话游戏的研究，旨在探索其普适性、评估模型的性能，并研究提示语言对模型表现的影响。该研究为构建应用交互系统的模型选择提供了基础，或最终建立模型和模拟评估器的闭环开发环境。

May, 2024