ShortcutsBench：一个基于 API 的代理的大规模现实世界基准测试

Jun, 2024

ShortcutsBench：一个基于 API 的代理的大规模现实世界基准测试

ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents

Haiyang Shen, Yue Li, Desong Meng, Dongqi Cai, Sheng Qi...

TL;DR该研究论文介绍了一个名为 ShortcutsBench 的大规模基准测试，用于评估基于 API 的代理程序在解决具有不同难度级别、任务类型和真实需求的任务中的性能。通过使用 5 个主流开源的以及 4 个闭源的大型语言模型进行实验，发现基于 API 的代理程序在处理与 API 选择、参数填充以及系统和用户请求必要信息相关的复杂查询时存在显著的局限性。

Abstract

Recent advancements in integrating large language models (LLMs) with application programming interfaces (APIs) have gained significant interest in both academia and industry. These api-based agents, leveraging th

large language models api-based agents multi-step actions shortcutsbench complex user queries

发现论文，激发创造

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

评估大型语言模型作为人工智能研究代理 agent

我们提出了一种基于 LLM 的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。

Oct, 2023

API-Bank: 工具增强型 LLMs 的基准测试

本文介绍了 API-Bank，它是第一个为工具增强的 LLMs 定制的基准测试，旨在全面评估 LLMs 规划逐步 API 调用、检索相关 API 和正确执行 API 调用以满足人类需求的能力，实验结果表明，GPT-3.5 在使用工具方面比 GPT3 有更好的性能，虽然 GPT-4 在规划性能方面更强，但仍有继续改进的空间，此外，详细的错误分析和案例研究证明了工具增强 LLMs 的可行性以及未来需要解决的主要挑战。

Apr, 2023

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024

MobileAgentBench: 移动 LLM 代理的高效且用户友好的基准测试

通过提出 MobileAgentBench 这一高效且用户友好的基准测试工具，对现有移动代理进行全面和系统性的性能比较，以解决应用程序状态无穷和可行操作序列定义模糊的挑战。

Jun, 2024

移动贝奇：一种用于基于 LLM 的移动代理的评估基准

通过引入 103 个 API 来扩展传统的 UI 操作，结合真实用户查询和 LLMs 的扩充数据，Mobile-Bench 提出了一种评估 LLM-based 移动代理能力的新型基准，其中包括 832 个数据输入和 200 多个任务，特别设计用于评估多应用程序协作场景，并引入了一种名为 CheckPoint 的更准确的评估指标来评估 LLM-based 移动代理在规划和推理步骤中是否达到关键点。

Jul, 2024

超越文本：通过 MultiAPI 基准评估揭示大型语言模型的多模态能力

聊天 GPT 通过开发的 MultiAPI 数据集评估了多模态任务中大型语言模型的表现，研究发现在 API 调用决策、领域识别、功能选择和参数生成等方面存在挑战，并提出了解决这些问题的新方法，为未来 LLM 研究指明了方向。

Nov, 2023

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023

TaskBench: 用于任务自动化的大型语言模型基准测试

最近，大型语言模型的不断进展引发了任务自动化的火花，其将用户指令描述的复杂任务分解为子任务，并调用外部工具执行它们，在自主代理中起着核心作用。然而，缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此，我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言，任务自动化可以分为三个关键阶段：任务分解，工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集，我们引入了工具图的概念来表示用户意图中的分解任务，并采用反指导方法来模拟用户指令和注释。此外，我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明，TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合，TaskBench 相对于人工评估具有高一致性，可以作为 LLM-based 自主代理的全面而可靠的基准。

Nov, 2023

ToolLLM: 促进大型语言模型掌握 16000 + 现实世界 API

通过引入 ToolLLM，一个包括数据构建、模型训练和评估的通用工具使用框架，我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench，并使用深度优先搜索决策树（DFSDT）扩展搜索空间，有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA，我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力，并与 ChatGPT 有着相当的性能。为了使流程更加实用，我们设计了一个神经 API 检索器以为每个指令推荐适当的 API，省去了手动选择 API 的繁琐步骤。

Jul, 2023