AnyTool:自省式、分层代理大规模 API 调用
通过引入 ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA,我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力,并与 ChatGPT 有着相当的性能。为了使流程更加实用,我们设计了一个神经 API 检索器以为每个指令推荐适当的 API,省去了手动选择 API 的繁琐步骤。
Jul, 2023
使用大型语言模型(LLMs)来拓展助手功能,提供对私人或最新信息的访问和用户代理人操作行为的量化评估工具,称为 ToolTalk。该工具包括 28 个工具和 7 个插件,模拟实现每个工具,并强调对外部世界产生影响的工具。通过在 GPT-3.5 和 GPT-4 上应用 ToolTalk 评估,找出错误类别并提出改进方向。
Nov, 2023
为了解决大语言模型在使用工具时面临的多样性和冗长工具文档的问题,本研究引入了 EASYTOOL 框架,将不同来源的多样化和冗长的工具文档转化为统一且简明的工具指南,以提供标准化的工具描述和功能,并通过在多个不同任务上的广泛实验验证了 EasyTool 能够显著减少令牌消耗并提高实际场景中工具利用性能。
Jan, 2024
本文介绍了 API-Bank,它是第一个为工具增强的 LLMs 定制的基准测试,旨在全面评估 LLMs 规划逐步 API 调用、检索相关 API 和正确执行 API 调用以满足人类需求的能力,实验结果表明,GPT-3.5 在使用工具方面比 GPT3 有更好的性能,虽然 GPT-4 在规划性能方面更强,但仍有继续改进的空间,此外,详细的错误分析和案例研究证明了工具增强 LLMs 的可行性以及未来需要解决的主要挑战。
Apr, 2023
本文提出了一种名为 GPT4Tools 的方法,利用自我指导生成指令遵循的数据集,并利用 LoRA 优化,使开源 LLMs 解决一系列视觉问题,如视觉理解和图像生成。经过广泛实验,表明该方法不仅显著提高了调用已知工具的准确性,而且还使得未知工具具有零 - shot 能力。
May, 2023
该论文介绍了一个综合框架,旨在增强基于大型语言模型的代理在实际系统中的任务规划和工具使用能力,通过 API 检索器选择相关 API、LLM 精调器调整基础 LLM 以增强规划和 API 调用能力、以及演示选择器用于区分难以辨别的 API 并进行上下文学习,验证结果显示每个组件及整合框架的有效性。
Nov, 2023
本文提出了 MetaTool,这是一个用于评估大型语言模型(LLMs)的工具使用意识和正确选择工具能力的基准测试,并通过实验证明大多数 LLMs 在工具选择方面仍然存在困难。
Oct, 2023
通过在 LLMs 中引入可扩展的工具集,将研究重点从追求全知问题解决者转变为专业的工具使用者,以增加科学推理对于 LLMs 的可行性,并构建了一个名为 MathFunc 的涵盖了超过 30,000 个样本和约 6,000 个工具的工具增强训练语料库,在此基础上开发了 SciAgent 用于科学问题的工具检索、理解和使用,并构建了跨越五个科学领域的基准测试 SciToolBench 来评估 LLMs 在工具协助下的能力,通过 SciToolBench 上的大量实验证实了 SciAgent 的有效性,特别是 SciAgent-Mistral-7B 在绝对准确率上比同样大小的其他 LLMs 高出 13% 以上,此外,SciAgent-DeepMath-7B 的性能远远优于 ChatGPT。
Feb, 2024
通过结合外部工具,将大型语言模型与实施工具学习,以应对不同的现实挑战,获得显著进展。鉴于此,为了评估大型语言模型利用工具的能力,需要进行大规模且稳定的基准测试。因此,本研究提出了 StableToolBench,作为 ToolBench 的演进版本,引入了虚拟 API 服务器和稳定的评估系统,通过缓存系统与 API 模拟器相辅相成,稳定 API 服务器状态,同时采用 GPT-4 作为自动评估器,设计了可解决的通过率和胜利率,消除了评估过程中的随机性。实验结果验证了 StableToolBench 的稳定性,并进一步讨论了 API 模拟器、缓存系统和评估系统的有效性。
Mar, 2024
ToolNet 是一个可拔插的框架,通过将工具组织成有向图的方式,使大语言模型能够处理成千上万个工具,并通过迭代选择来解决问题,从而在具有挑战性的多跳工具学习数据集中取得显著结果,并且具有工具故障的弹性。
Feb, 2024