ToolLLM: 促进大型语言模型掌握16000+现实世界 API

Jul, 2023

ToolLLM: 促进大型语言模型掌握16000+现实世界 API

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan...

TL;DR通过引入ToolLLM，一个包括数据构建、模型训练和评估的通用工具使用框架，我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench，并使用深度优先搜索决策树（DFSDT）扩展搜索空间，有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA，我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力，并与ChatGPT有着相当的性能。为了使流程更加实用，我们设计了一个神经API检索器以为每个指令推荐适当的API，省去了手动选择API的繁琐步骤。

Abstract

Despite the advancements of open-source large language models (LLMs) and their variants, e.g., LLaMA and Vicuna, they remain significantly limited in performing higher-level tasks, such as following human instructions to use external tools (APIs). This is because current instruction tu

发现论文，激发创造

API-Bank: 工具增强型LLMs的基准测试

本文介绍了API-Bank，它是第一个为工具增强的LLMs定制的基准测试，旨在全面评估LLMs规划逐步API调用、检索相关API和正确执行API调用以满足人类需求的能力，实验结果表明，GPT-3.5在使用工具方面比GPT3有更好的性能，虽然GPT-4在规划性能方面更强，但仍有继续改进的空间，此外，详细的错误分析和案例研究证明了工具增强LLMs的可行性以及未来需要解决的主要挑战。

Apr, 2023

大型语言模型作为工具制造者

该研究提出了一种基于大型语言模型(LLMs)的闭环框架LLMs As Tool Makers(LATM)，通过该框架，LLMs可以自己创建可重用的工具以解决问题，并验证了该方法在包括Big-Bench任务在内的复杂推理任务中的有效性，使用GPT-4作为工具制造者和GPT-3.5作为工具用户，LATM的性能与使用GPT-4制造和使用工具的性能相当，而推理成本显著降低。

May, 2023

定制LLMs：创建和检索专业工具集

通过使用特定任务的工具来增强大型语言模型的能力，CRAFT框架通过创建和检索工具集，为LLMs提供了灵活性，并在视觉语言、表格处理和数学推理任务中实现了显著的性能改进。

Sep, 2023

ControlLLM: 通过在图上搜索来增强语言模型的工具

我们介绍了ControlLLM，这是一个新颖的框架，使得大型语言模型能够利用多模态工具来解决复杂的现实世界任务，通过使用任务分解器、Thoughts-on-Graph（ToG）范式和具备丰富工具箱的执行引擎，在图像、音频和视频处理等多样任务中展示出了超群的准确性、效率和多功能性。

Oct, 2023

小型LLM是弱工具学习者：多LLM代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

着眼决策感知和通用化的大规模语言模型工具使用

通过提出一种决策感知和具有一般化的工具使用框架（DEER），本文旨在增强开源LLMs在操作工具方面的能力。通过构建工具使用样本和新颖的工具采样策略，DEER在各个数据集上证明了其有效性和显著优于基准模型。

Feb, 2024

从总结到行动：利用开放式接口增强大规模语言模型对复杂任务的应用

人类与动物之间的区别在于人类可以使用和创造工具，而使大型语言模型具备学习外部工具使用的能力可以成为实现人工智能的重要一步。本研究引入了一种新的工具调用管道，设计用于控制庞大的真实世界应用程序接口，通过`从摘要到行动'的Sum2Act管道，在复杂的真实用户查询中模拟人类解决问题的过程，从而提高了大型语言模型的性能，优于现有的方法。

Feb, 2024

工具链：大型语言模型作为自动多功能学习器

通过自动工具链和黑盒探测方法，为大型语言模型提供了扩展功能，使其成为多工具用户，能够主动发现和使用新工具，从而解决实际任务中的规划和工具选择的挑战。

May, 2024

利用大型语言模型进行API交互：分类和合成数据生成的框架

本研究解决了如何高效地将自然语言命令转化为相应API调用的问题。我们提出了一种新系统，利用大型语言模型进行自然语言分类和自动生成示例数据集，从而降低软件使用门槛，提高交互效率。实验证明，GPT-4的高分类准确率（0.996）展示了大型语言模型在API管理中的潜在转变能力，强调了该系统在模型测试和选择中的有效性。

Sep, 2024

工具与大型语言模型的结合：一项综述

本研究针对大型语言模型（LLMs）在特定复杂任务中效率和准确性不足的问题，提出了一种教学LLMs使用外部工具的标准化方法。该论文的主要发现揭示了LLMs如何在理解用户意图和动态调整计划的基础上，克服工具选择和调用时机等挑战，探索了从工具使用者转变为工具创造者的新视角。

Sep, 2024