ToolACE:赢得大型语言模型的函数调用能力
通过引入ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA,我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力,并与ChatGPT有着相当的性能。为了使流程更加实用,我们设计了一个神经API检索器以为每个指令推荐适当的API,省去了手动选择API的繁琐步骤。
Jul, 2023
我们提出了一个模块化的多语言模型框架,将大型语言模型能力分解为规划器、调用器和摘要生成器,并通过两阶段训练范式有效地训练该框架,该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果,凸显了其在工具学习中的功效和优势。
Jan, 2024
通过自我验证方法,在语言模型中学习使用工具是构建通用助手的重要里程碑,但仍然是一个尚未解决的问题。本研究介绍了一种通过自我对比问题在工具选择和参数生成过程中区分相似候选项的方法。在ToolBench基准测试的四个任务上进行了大量实验,包括了17个之前未见的工具,结果显示相较于少样本基准线平均提高了22%,即使在候选工具之间的区别非常微妙的情况下也能有效改进。
Feb, 2024
提出了一种仿生的方法,即模拟试错(STE),通过协调三个关键机制:试错、想象和记忆,为工具增强的大型语言模型(LLMs)提供成功使用工具的行为。通过在ToolBench上进行的综合实验,证明STE在上下文学习和微调设置下显著改善了LLMs的工具学习,为Mistral-Instruct-7B带来了46.7%的提升,并使其胜过GPT-4。同时还展示了通过简单的经验重放策略有效地进行工具的持续学习。
Mar, 2024
该论文介绍了APIGen,一种自动化数据生成方法,旨在合成可验证的高质量数据集以支持函数调用应用。通过APIGen,作者收集了21个不同类别的3,673个可执行API,以可扩展和有结构的方式生成多样的函数调用数据集。而且,通过三个层次的验证(格式检查、实际函数执行和语义验证),确保了数据集的可靠性和正确性。作者演示了即使只有7B参数,使用他们精选的数据集进行训练的模型也能在伯克利函数调用基准测试中取得最先进的性能,超过多个GPT-4模型。此外,他们的1B模型取得了出色的性能,超越了GPT-3.5-Turbo和Claude-3 Haiku。作者发布了一个包含60,000个高质量条目的数据集,旨在推动函数调用代理领域的发展。此数据集可在Huggingface(链接)和项目主页(链接)上获取。
Jun, 2024
通过多任务训练方法,使用七个基本任务在多领域数据集上进行全面评估,我们介绍了基于 Apache 2.0 许可的 GRANITE-20B-FUNCTIONCALLING 模型,该模型在 Berkeley Function Calling Leaderboard 上是所有开源模型中表现最好的,且在七个不同的评估数据集上展现了更好的泛化能力。
Jun, 2024
该研究论文介绍了一个名为ShortcutsBench的大规模基准测试,用于评估基于API的代理程序在解决具有不同难度级别、任务类型和真实需求的任务中的性能。通过使用5个主流开源的以及4个闭源的大型语言模型进行实验,发现基于API的代理程序在处理与API选择、参数填充以及系统和用户请求必要信息相关的复杂查询时存在显著的局限性。
Jun, 2024
本研究解决现代大型语言模型(LLMs)在面对模糊用户指令时的工具使用效率问题。论文提出了一个新框架Ask-when-Needed(AwN),使LLMs在遇到困难时主动询问用户,从而减少由于错误指令引发的幻觉风险。研究表明,AwN在工具学习方面显著优于现有框架,对提高LLMs的性能具有重要影响。
Aug, 2024
本研究针对大规模语言模型在边缘部署中的不足,提出了TinyAgent框架,旨在培养和部署小型语言模型代理以进行函数调用。研究表明,TinyAgent-1.1B和7B模型的函数调用能力超过了诸如GPT-4-Turbo等较大模型,在边缘计算中表现出色,具有显著的应用潜力。
Sep, 2024
本研究针对大型语言模型(LLMs)在模糊指令下的工具使用表现,存在精确用户指令无法保证的问题。作者提出了一种新颖的框架“根据需要提问”(AwN),使LLMs在面对不明确的指令时能主动向用户询问,从而改善工具的应用效果。实验结果显示,AwN在“噪声工具基准”(NoisyToolBench)上显著优于现有工具学习框架。
Aug, 2024