定制 LLMs:创建和检索专业工具集
该研究提出了一种基于大型语言模型 (LLMs) 的闭环框架 LLMs As Tool Makers (LATM),通过该框架,LLMs 可以自己创建可重用的工具以解决问题,并验证了该方法在包括 Big-Bench 任务在内的复杂推理任务中的有效性,使用 GPT-4 作为工具制造者和 GPT-3.5 作为工具用户,LATM 的性能与使用 GPT-4 制造和使用工具的性能相当,而推理成本显著降低。
May, 2023
通过引入 ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA,我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力,并与 ChatGPT 有着相当的性能。为了使流程更加实用,我们设计了一个神经 API 检索器以为每个指令推荐适当的 API,省去了手动选择 API 的繁琐步骤。
Jul, 2023
本研究论文通过利用大型语言模型构建了一个名为 RoboTool 的系统,通过接受自然语言指令并输出可执行的机器人控制代码,实现了机器人在包含隐含物理约束和长期规划的任务中的创造性使用工具的能力。通过广泛的实验验证,RoboTool 在处理否则无法完成的任务方面表现出了熟练的水平,从而扩展了机器人系统的能力。
Oct, 2023
研究了在开源 LLM 中通过一定程度的人工监督和对数据进行生成和调整,将其在工具操作方面提升至与已有的闭源 LLM 相竞争的能力,同时设计了一个工具操纵基准进行了实验,结果表明,在大多数情况下,该方法可使其成功率提高至 90%。
May, 2023
通过自动工具链和黑盒探测方法,为大型语言模型提供了扩展功能,使其成为多工具用户,能够主动发现和使用新工具,从而解决实际任务中的规划和工具选择的挑战。
May, 2024
CREATOR 是一种新颖的框架,使大型语言模型创建自己的工具变得容易,该方法在数学问题求解方面的表现显著优于现有方法,并有助于知识转移和提高模型的适应性。
May, 2023
人类与动物之间的区别在于人类可以使用和创造工具,而使大型语言模型具备学习外部工具使用的能力可以成为实现人工智能的重要一步。本研究引入了一种新的工具调用管道,设计用于控制庞大的真实世界应用程序接口,通过 ` 从摘要到行动 ' 的 Sum2Act 管道,在复杂的真实用户查询中模拟人类解决问题的过程,从而提高了大型语言模型的性能,优于现有的方法。
Feb, 2024
本文介绍了 API-Bank,它是第一个为工具增强的 LLMs 定制的基准测试,旨在全面评估 LLMs 规划逐步 API 调用、检索相关 API 和正确执行 API 调用以满足人类需求的能力,实验结果表明,GPT-3.5 在使用工具方面比 GPT3 有更好的性能,虽然 GPT-4 在规划性能方面更强,但仍有继续改进的空间,此外,详细的错误分析和案例研究证明了工具增强 LLMs 的可行性以及未来需要解决的主要挑战。
Apr, 2023
我们提出了一个模块化的多语言模型框架,将大型语言模型能力分解为规划器、调用器和摘要生成器,并通过两阶段训练范式有效地训练该框架,该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果,凸显了其在工具学习中的功效和优势。
Jan, 2024
本研究探讨了利用工具增强大规模语言模型在处理复杂环境中的潜力,并通过在知识库和数据库等复杂环境中的实证来展示这种潜力。结果表明,配备这些工具的 GPT-4 在需要访问数据库内容的任务中性能提高了 2.8 倍,在知识库任务中提高了 2.2 倍。这些发现为在复杂实际应用中推进语言模型的发展指明了方向。
Feb, 2024