ToolACE：赢得大型语言模型的函数调用能力

Sep, 2024

ToolACE：赢得大型语言模型的函数调用能力

ToolACE: Winning the Points of LLM Function Calling

Weiwen Liu, Xu Huang, Xingshan Zeng, Xinlong Hao, Shuai Yu...

TL;DR本研究解决了大型语言模型函数调用应用中，难以收集和标注高质量真实数据的问题。提出了一种名为ToolACE的自动化生成工具学习数据的新方法，该方法通过自我进化合成过程生成准确且多样的工具调用数据。研究表明，基于合成数据训练的模型，即便参数量仅为8B，在伯克利函数调用排行榜上也能达到与最新GPT-4模型相媲美的性能，具有重要的应用前景。

Abstract

function calling significantly extends the application boundary of large language models, where high-quality and diverse training data is critical for unlocking this capability. However, real function-calling dat

发现论文，激发创造

ToolLLM: 促进大型语言模型掌握16000+现实世界 API

通过引入ToolLLM，一个包括数据构建、模型训练和评估的通用工具使用框架，我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench，并使用深度优先搜索决策树（DFSDT）扩展搜索空间，有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA，我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力，并与ChatGPT有着相当的性能。为了使流程更加实用，我们设计了一个神经API检索器以为每个指令推荐适当的API，省去了手动选择API的繁琐步骤。

Jul, 2023

小型LLM是弱工具学习者：多LLM代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

TOOLVERIFIER：通过自验证实现针对新工具的泛化

通过自我验证方法，在语言模型中学习使用工具是构建通用助手的重要里程碑，但仍然是一个尚未解决的问题。本研究介绍了一种通过自我对比问题在工具选择和参数生成过程中区分相似候选项的方法。在ToolBench基准测试的四个任务上进行了大量实验，包括了17个之前未见的工具，结果显示相较于少样本基准线平均提高了22％，即使在候选工具之间的区别非常微妙的情况下也能有效改进。

Feb, 2024

在Imaginarium中的LLMs: 通过模拟试错学习工具

提出了一种仿生的方法，即模拟试错（STE），通过协调三个关键机制：试错、想象和记忆，为工具增强的大型语言模型（LLMs）提供成功使用工具的行为。通过在ToolBench上进行的综合实验，证明STE在上下文学习和微调设置下显著改善了LLMs的工具学习，为Mistral-Instruct-7B带来了46.7%的提升，并使其胜过GPT-4。同时还展示了通过简单的经验重放策略有效地进行工具的持续学习。

Mar, 2024

APIGen：生成可验证和多样化函数调用数据集的自动化流水线

该论文介绍了APIGen，一种自动化数据生成方法，旨在合成可验证的高质量数据集以支持函数调用应用。通过APIGen，作者收集了21个不同类别的3,673个可执行API，以可扩展和有结构的方式生成多样的函数调用数据集。而且，通过三个层次的验证（格式检查、实际函数执行和语义验证），确保了数据集的可靠性和正确性。作者演示了即使只有7B参数，使用他们精选的数据集进行训练的模型也能在伯克利函数调用基准测试中取得最先进的性能，超过多个GPT-4模型。此外，他们的1B模型取得了出色的性能，超越了GPT-3.5-Turbo和Claude-3 Haiku。作者发布了一个包含60,000个高质量条目的数据集，旨在推动函数调用代理领域的发展。此数据集可在Huggingface（链接）和项目主页（链接）上获取。

Jun, 2024

花岗岩函数调用模型：通过对颗粒任务的多任务学习引入函数调用能力

通过多任务训练方法，使用七个基本任务在多领域数据集上进行全面评估，我们介绍了基于 Apache 2.0 许可的 GRANITE-20B-FUNCTIONCALLING 模型，该模型在 Berkeley Function Calling Leaderboard 上是所有开源模型中表现最好的，且在七个不同的评估数据集上展现了更好的泛化能力。

Jun, 2024

ShortcutsBench：一个基于API的代理的大规模现实世界基准测试

该研究论文介绍了一个名为ShortcutsBench的大规模基准测试，用于评估基于API的代理程序在解决具有不同难度级别、任务类型和真实需求的任务中的性能。通过使用5个主流开源的以及4个闭源的大型语言模型进行实验，发现基于API的代理程序在处理与API选择、参数填充以及系统和用户请求必要信息相关的复杂查询时存在显著的局限性。

Jun, 2024

学习提问：当大型语言模型遇到模糊指令时

本研究解决现代大型语言模型（LLMs）在面对模糊用户指令时的工具使用效率问题。论文提出了一个新框架Ask-when-Needed（AwN），使LLMs在遇到困难时主动询问用户，从而减少由于错误指令引发的幻觉风险。研究表明，AwN在工具学习方面显著优于现有框架，对提高LLMs的性能具有重要影响。

Aug, 2024

微小智能体：边缘函数调用

本研究针对大规模语言模型在边缘部署中的不足，提出了TinyAgent框架，旨在培养和部署小型语言模型代理以进行函数调用。研究表明，TinyAgent-1.1B和7B模型的函数调用能力超过了诸如GPT-4-Turbo等较大模型，在边缘计算中表现出色，具有显著的应用潜力。

Sep, 2024

学习提问：当大型语言模型遇到模糊指令

本研究针对大型语言模型（LLMs）在模糊指令下的工具使用表现，存在精确用户指令无法保证的问题。作者提出了一种新颖的框架“根据需要提问”（AwN），使LLMs在面对不明确的指令时能主动向用户询问，从而改善工具的应用效果。实验结果显示，AwN在“噪声工具基准”（NoisyToolBench）上显著优于现有工具学习框架。

Aug, 2024