GTA：通用工具代理的基准测试

Jul, 2024

GTA: A Benchmark for General Tool Agents

Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen...

TL;DR我们提出了GTA，作为一个通用工具代理的基准，该基准包含真实用户查询、部署的工具和真实的多模态输入，评估大型语言模型在真实世界场景中的工具使用能力，并发现当前大型语言模型在实际任务中的表现存在瓶颈。

Abstract

Significant focus has been placed on integrating large language models (LLMs) with various tools in developing general-purpose agents. This poses a challenge to LLMs' tool-use capabilities. However, there are evi

发现论文，激发创造

ToolAlpaca：3000个模拟案例的通用工具学习语言模型

本文介绍了一种名为ToolAlpaca的新框架，旨在利用最少的人为干预，在紧凑的语言模型上生成工具使用语料库并学习广义工具使用能力。实验结果表明，ToolAlpaca实现了与GPT-3.5等极其大型语言模型相当的有效广义工具使用能力，证实了紧凑语言模型的学习广义工具使用能力是可行的。

Jun, 2023

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估LLMs作为代理的推理和决策能力，显示出商业LLMs和开源竞争对手之间的性能差距。

Aug, 2023

AgentSims：用于大型语言模型评估的开放源码沙盒

使用AgentSims构建任务评估方法，解决现有评估方法的局限性，并提供易于使用的基础设施，供研究人员测试大语言模型的能力。

Aug, 2023

TaskBench: 用于任务自动化的大型语言模型基准测试

最近，大型语言模型的不断进展引发了任务自动化的火花，其将用户指令描述的复杂任务分解为子任务，并调用外部工具执行它们，在自主代理中起着核心作用。然而，缺乏一个系统的和标准化的基准来促进LLM在任务自动化中的发展。为此，我们引入了TaskBench来评估LLM在任务自动化中的能力。具体而言，任务自动化可以分为三个关键阶段：任务分解，工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集，我们引入了工具图的概念来表示用户意图中的分解任务，并采用反指导方法来模拟用户指令和注释。此外，我们提出了TaskEval来从任务分解、工具调用和参数预测等不同方面评估LLM的能力。实验结果表明，TaskBench能够有效地反映LLM在任务自动化中的能力。借助自动化数据构建和人工验证的综合，TaskBench相对于人工评估具有高一致性，可以作为LLM-based自主代理的全面而可靠的基准。

Nov, 2023

基于LLM的中间件：工具在复杂环境中对语言代理很重要

本研究探讨了利用工具增强大规模语言模型在处理复杂环境中的潜力，并通过在知识库和数据库等复杂环境中的实证来展示这种潜力。结果表明，配备这些工具的GPT-4在需要访问数据库内容的任务中性能提高了2.8倍，在知识库任务中提高了2.2倍。这些发现为在复杂实际应用中推进语言模型的发展指明了方向。

Feb, 2024

大型多模态代理：综述

大型语言模型在多媒体领域的研究和发展方向的全面回顾，介绍了大型多媒体代理的开发要素和分类，评估方法的编制以及未来研究方向的提出。

Feb, 2024

AgentQuest: 一个模块化的基准测试框架，用于衡量和提升LLM代理的进展

通过构建可扩展的模块化基准和评估指标，提出了AgentQuest框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。

Apr, 2024

ShortcutsBench：一个基于API的代理的大规模现实世界基准测试

该研究论文介绍了一个名为ShortcutsBench的大规模基准测试，用于评估基于API的代理程序在解决具有不同难度级别、任务类型和真实需求的任务中的性能。通过使用5个主流开源的以及4个闭源的大型语言模型进行实验，发现基于API的代理程序在处理与API选择、参数填充以及系统和用户请求必要信息相关的复杂查询时存在显著的局限性。

Jun, 2024

Windows代理竞技场：大规模评估多模态操作系统代理

本研究针对现有评估工具在真实环境中应用的局限性，提出了Windows代理竞技场，这是一种 reproducible 的通用环境，专注于Windows操作系统，支持多个任务的评估。创新性地开发超过150个多样化任务，并引入了新的多模态代理Navi，显著提高了评估的效率，为未来的代理开发和数据生成开辟了新的研究机会。

Sep, 2024

Windows代理竞技场：大规模评估多模态操作系统代理

本研究解决了在真实环境中评估计算机代理表现的挑战，包括现有基准测试的限制及其评估速度缓慢的问题。通过引入Windows代理竞技场，我们提供一个专注于Windows操作系统的可重复环境，创建了150多个多样化任务，旨在提高代理的规划和工具使用能力，这一评估方法可在20分钟内完成完整测试。最显著的发现是新代理Navi在Windows领域的成功率为19.5%，比无辅助人类低，但在Web基准Mind2Web上表现良好，展示了该领域未来研究的潜力。

Sep, 2024