工具对话：在对话场景中评估工具使用

ICLRNov, 2023

工具对话：在对话场景中评估工具使用

ToolTalk: Evaluating Tool-Usage in a Conversational Setting

Nicholas Farn, Richard Shin

TL;DR使用大型语言模型（LLMs）来拓展助手功能，提供对私人或最新信息的访问和用户代理人操作行为的量化评估工具，称为 ToolTalk。该工具包括 28 个工具和 7 个插件，模拟实现每个工具，并强调对外部世界产生影响的工具。通过在 GPT-3.5 和 GPT-4 上应用 ToolTalk 评估，找出错误类别并提出改进方向。

Abstract

large language models (LLMs) have displayed massive improvements in reasoning and decision-making skills and can hold natural conversations with users. Many recent works seek to augment LLM-based assistants with external tools so they can access private or up-to-date information and ca

large language models augmented assistants tooltalk benchmark complex user intents execution feedback

发现论文，激发创造

元工具基准：决定是否使用工具以及选择哪个工具

本文提出了 MetaTool，这是一个用于评估大型语言模型（LLMs）的工具使用意识和正确选择工具能力的基准测试，并通过实验证明大多数 LLMs 在工具选择方面仍然存在困难。

Oct, 2023

ToolLLM: 促进大型语言模型掌握 16000 + 现实世界 API

通过引入 ToolLLM，一个包括数据构建、模型训练和评估的通用工具使用框架，我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench，并使用深度优先搜索决策树（DFSDT）扩展搜索空间，有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA，我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力，并与 ChatGPT 有着相当的性能。为了使流程更加实用，我们设计了一个神经 API 检索器以为每个指令推荐适当的 API，省去了手动选择 API 的繁琐步骤。

Jul, 2023

GPT4Tools: 通过自我学习教授大型语言模型使用工具

本文提出了一种名为 GPT4Tools 的方法，利用自我指导生成指令遵循的数据集，并利用 LoRA 优化，使开源 LLMs 解决一系列视觉问题，如视觉理解和图像生成。经过广泛实验，表明该方法不仅显著提高了调用已知工具的准确性，而且还使得未知工具具有零 - shot 能力。

May, 2023

GeckOpt：通过基于意图的工具选择提高低水平管理系统效率

通过识别用户提示背后的意图，我们调查了一种基于 GPT 的意图推理方法，以简化大型语言模型（LLMs）的工具选择，从而提高系统的效率。通过在运行时缩小任务执行所需的 API 工具集合，我们将记号消耗减少了多达 24.6％。在一个具有 100 个 GPT-4-Turbo 节点的实际大规模并行 Copilot 平台上的初步结果显示出成本的降低和改善 LLM 系统效率的潜力。

Apr, 2024

TPTU：基于大型语言模型的人工智能代理任务规划和工具使用

通过设计两种不同类型的代理进程（即一步代理和连续代理），我们在 LLM 的基础上实例化了一个结构化框架，评估了它们在 typcial 任务的任务规划和工具使用能力，并突出了这些模型的巨大潜力以及需要进一步研究和改进的领域。

Aug, 2023

ToolNet: 通过工具图连接大型语言模型与强大工具

ToolNet 是一个可拔插的框架，通过将工具组织成有向图的方式，使大语言模型能够处理成千上万个工具，并通过迭代选择来解决问题，从而在具有挑战性的多跳工具学习数据集中取得显著结果，并且具有工具故障的弹性。

Feb, 2024

API-Bank: 工具增强型 LLMs 的基准测试

本文介绍了 API-Bank，它是第一个为工具增强的 LLMs 定制的基准测试，旨在全面评估 LLMs 规划逐步 API 调用、检索相关 API 和正确执行 API 调用以满足人类需求的能力，实验结果表明，GPT-3.5 在使用工具方面比 GPT3 有更好的性能，虽然 GPT-4 在规划性能方面更强，但仍有继续改进的空间，此外，详细的错误分析和案例研究证明了工具增强 LLMs 的可行性以及未来需要解决的主要挑战。

Apr, 2023

大型语言模型作为工具制造者

该研究提出了一种基于大型语言模型 (LLMs) 的闭环框架 LLMs As Tool Makers (LATM)，通过该框架，LLMs 可以自己创建可重用的工具以解决问题，并验证了该方法在包括 Big-Bench 任务在内的复杂推理任务中的有效性，使用 GPT-4 作为工具制造者和 GPT-3.5 作为工具用户，LATM 的性能与使用 GPT-4 制造和使用工具的性能相当，而推理成本显著降低。

May, 2023

MultiTool-CoT: GPT-3 可使用多个外部工具，通过思维链提示

提出一种名为 MultiTool-CoT 的新型架构，通过链式思考提示（CoT prompting）引入多种外部工具（如计算器和知识检索器）来执行推理，进一步改善大语言模型（LLMs）在各种推理任务上的表现，将其应用于 NumGLUE 的任务 2 数据集，并获得该领域的最佳表现。

May, 2023

TPTU-v2：在现实世界系统中增强基于大型语言模型的代理人的任务规划与工具使用

该论文介绍了一个综合框架，旨在增强基于大型语言模型的代理在实际系统中的任务规划和工具使用能力，通过 API 检索器选择相关 API、LLM 精调器调整基础 LLM 以增强规划和 API 调用能力、以及演示选择器用于区分难以辨别的 API 并进行上下文学习，验证结果显示每个组件及整合框架的有效性。

Nov, 2023