GTA:通用工具代理的基准测试
本文介绍了一种名为ToolAlpaca的新框架,旨在利用最少的人为干预,在紧凑的语言模型上生成工具使用语料库并学习广义工具使用能力。实验结果表明,ToolAlpaca实现了与GPT-3.5等极其大型语言模型相当的有效广义工具使用能力,证实了紧凑语言模型的学习广义工具使用能力是可行的。
Jun, 2023
最近,大型语言模型的不断进展引发了任务自动化的火花,其将用户指令描述的复杂任务分解为子任务,并调用外部工具执行它们,在自主代理中起着核心作用。然而,缺乏一个系统的和标准化的基准来促进LLM在任务自动化中的发展。为此,我们引入了TaskBench来评估LLM在任务自动化中的能力。具体而言,任务自动化可以分为三个关键阶段:任务分解,工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集,我们引入了工具图的概念来表示用户意图中的分解任务,并采用反指导方法来模拟用户指令和注释。此外,我们提出了TaskEval来从任务分解、工具调用和参数预测等不同方面评估LLM的能力。实验结果表明,TaskBench能够有效地反映LLM在任务自动化中的能力。借助自动化数据构建和人工验证的综合,TaskBench相对于人工评估具有高一致性,可以作为LLM-based自主代理的全面而可靠的基准。
Nov, 2023
本研究探讨了利用工具增强大规模语言模型在处理复杂环境中的潜力,并通过在知识库和数据库等复杂环境中的实证来展示这种潜力。结果表明,配备这些工具的GPT-4在需要访问数据库内容的任务中性能提高了2.8倍,在知识库任务中提高了2.2倍。这些发现为在复杂实际应用中推进语言模型的发展指明了方向。
Feb, 2024
通过构建可扩展的模块化基准和评估指标,提出了AgentQuest框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。
Apr, 2024
该研究论文介绍了一个名为ShortcutsBench的大规模基准测试,用于评估基于API的代理程序在解决具有不同难度级别、任务类型和真实需求的任务中的性能。通过使用5个主流开源的以及4个闭源的大型语言模型进行实验,发现基于API的代理程序在处理与API选择、参数填充以及系统和用户请求必要信息相关的复杂查询时存在显著的局限性。
Jun, 2024
本研究针对现有评估工具在真实环境中应用的局限性,提出了Windows代理竞技场,这是一种 reproducible 的通用环境,专注于Windows操作系统,支持多个任务的评估。创新性地开发超过150个多样化任务,并引入了新的多模态代理Navi,显著提高了评估的效率,为未来的代理开发和数据生成开辟了新的研究机会。
Sep, 2024
本研究解决了在真实环境中评估计算机代理表现的挑战,包括现有基准测试的限制及其评估速度缓慢的问题。通过引入Windows代理竞技场,我们提供一个专注于Windows操作系统的可重复环境,创建了150多个多样化任务,旨在提高代理的规划和工具使用能力,这一评估方法可在20分钟内完成完整测试。最显著的发现是新代理Navi在Windows领域的成功率为19.5%,比无辅助人类低,但在Web基准Mind2Web上表现良好,展示了该领域未来研究的潜力。
Sep, 2024