CRAB:跨环境多模态语言模型智能体的对比基准
通过对多模态网络代理的性能进行评估,我们引入了VisualWebArena,它是一个用于评估自主多模态代理在具有视觉基础任务方面性能的基准。我们对现有的自主代理进行了广泛的评估,并揭示了文本模型的几个限制以及现有多模态语言代理能力上的差距。
Jan, 2024
通过使用OmniACT数据集和基准测试,该研究介绍了评估代理程序生成可执行计算机任务的能力的一种新方法,并展示了当前最强的基线语言模型代理(GPT-4)在该基准测试中表现最好。然而,与人类能力相比,它仅达到15%,这突显了传统网络代理在生成可完成任务的可执行脚本方面的挑战。该基准测试为衡量和评估语言模型代理在自动化计算机任务方面的进展提供了平台,并激励未来研究努力构建大型语言模型和计算机屏幕的视觉基础的多模态模型。
Feb, 2024
通过构建可扩展的模块化基准和评估指标,提出了AgentQuest框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。
Apr, 2024
通过引入OSWorld,我们创建了一个包含369个计算机任务的基准,以评估多模态代理在开放领域中执行任意应用程序所涉及的计算机任务的能力。在OSWorld上进行的全面评估为开发多模态通用代理提供了宝贵的洞见,这是以前的基准测试无法实现的。
Apr, 2024
多模态网站的自主体代理在逐渐演变的真实环境中完成复杂用户任务具有挑战性,提出了MMInA,这是一个多跳和多模态评估综合互联网任务能力的基准,通过构建真实世界的多模态网站和综合任务评估协议,发现自主体代理在长链多跳互联网任务方面存在挑战,提出了一种简单的记忆增强方法,明显提高了代理的单跳和多跳网络浏览能力。
Apr, 2024
本研究针对现有多智能体系统中语言模型合作能力评估不足的问题,提出了一种新的基准—BattleAgentBench,该基准涵盖了七个子阶段的多种难度级别,并进行细致的能力评估。研究发现,尽管API模型在简单任务上表现优异,但小型开源模型在简单任务中的表现却令人失望,且在复杂合作与竞争任务中仍有较大的改进空间。
Aug, 2024
本研究针对现有评估工具在真实环境中应用的局限性,提出了Windows代理竞技场,这是一种 reproducible 的通用环境,专注于Windows操作系统,支持多个任务的评估。创新性地开发超过150个多样化任务,并引入了新的多模态代理Navi,显著提高了评估的效率,为未来的代理开发和数据生成开辟了新的研究机会。
Sep, 2024
本研究解决了在真实环境中评估计算机代理表现的挑战,包括现有基准测试的限制及其评估速度缓慢的问题。通过引入Windows代理竞技场,我们提供一个专注于Windows操作系统的可重复环境,创建了150多个多样化任务,旨在提高代理的规划和工具使用能力,这一评估方法可在20分钟内完成完整测试。最显著的发现是新代理Navi在Windows领域的成功率为19.5%,比无辅助人类低,但在Web基准Mind2Web上表现良好,展示了该领域未来研究的潜力。
Sep, 2024
本研究针对现有多模态智能体在协作任务中语言沟通不足的问题,提出了一种新的基准,旨在评估多模态多智能体系统的合作表现。研究揭示了现有最先进模型的显著弱点,尤其是在智能体之间的协作中,说明这些模型在真实世界应用中的有效性存在局限。
Oct, 2024
本研究解决了多智能体系统中大型语言模型(LLMs)之间通信的效率问题,尤其是在处理长上下文时的延迟。通过引入DroidSpeak框架,利用中间数据(如输入嵌入和键值缓存)来提高跨LLM通信的速度,实现了预填充延迟高达2.78倍的加速,同时保持任务性能的质量。这一发现为构建更高效、可扩展的多智能体系统提供了新的可能性。
Nov, 2024