工具与大型语言模型的结合:一项综述
该研究提出了一种基于大型语言模型(LLMs)的闭环框架LLMs As Tool Makers(LATM),通过该框架,LLMs可以自己创建可重用的工具以解决问题,并验证了该方法在包括Big-Bench任务在内的复杂推理任务中的有效性,使用GPT-4作为工具制造者和GPT-3.5作为工具用户,LATM的性能与使用GPT-4制造和使用工具的性能相当,而推理成本显著降低。
May, 2023
通过引入ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA,我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力,并与ChatGPT有着相当的性能。为了使流程更加实用,我们设计了一个神经API检索器以为每个指令推荐适当的API,省去了手动选择API的繁琐步骤。
Jul, 2023
通过使用特定任务的工具来增强大型语言模型的能力,CRAFT框架通过创建和检索工具集,为LLMs提供了灵活性,并在视觉语言、表格处理和数学推理任务中实现了显著的性能改进。
Sep, 2023
本文提出了 MetaTool,这是一个用于评估大型语言模型(LLMs)的工具使用意识和正确选择工具能力的基准测试,并通过实验证明大多数LLMs在工具选择方面仍然存在困难。
Oct, 2023
现有对工具学习的评估主要集中在验证大型语言模型(LLMs)与预期结果的工具选择的一致性上。然而,这些方法依赖于一组有限的可以预先确定答案的场景,与真实需求相背离。此外,过于关注结果忽略了LLMs有效利用工具所必需的复杂能力。为解决这个问题,我们提出了ToolEyes,一个精细的系统,用于评估LLMs在真实场景中的工具学习能力。该系统细致地检查了七个现实世界的场景,分析了对LLMs在工具学习中至关重要的五个方面:格式对齐、意图理解、行为规划、工具选择和答案组织。此外,ToolEyes还采用了一个拥有约600个工具的工具库,充当LLMs与物理世界之间的中介。涉及三个类别的十个LLMs的评估结果表明对特定场景有偏好,并且在工具学习方面的认知能力有限。有趣的是,模型尺寸的扩大甚至加剧了对工具学习的阻碍。这些发现提供了对推动工具学习领域的有益见解。
Jan, 2024
我们提出了一个模块化的多语言模型框架,将大型语言模型能力分解为规划器、调用器和摘要生成器,并通过两阶段训练范式有效地训练该框架,该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果,凸显了其在工具学习中的功效和优势。
Jan, 2024
通过提出一种决策感知和具有一般化的工具使用框架(DEER),本文旨在增强开源LLMs在操作工具方面的能力。通过构建工具使用样本和新颖的工具采样策略,DEER在各个数据集上证明了其有效性和显著优于基准模型。
Feb, 2024
提出了一种仿生的方法,即模拟试错(STE),通过协调三个关键机制:试错、想象和记忆,为工具增强的大型语言模型(LLMs)提供成功使用工具的行为。通过在ToolBench上进行的综合实验,证明STE在上下文学习和微调设置下显著改善了LLMs的工具学习,为Mistral-Instruct-7B带来了46.7%的提升,并使其胜过GPT-4。同时还展示了通过简单的经验重放策略有效地进行工具的持续学习。
Mar, 2024
通过自动工具链和黑盒探测方法,为大型语言模型提供了扩展功能,使其成为多工具用户,能够主动发现和使用新工具,从而解决实际任务中的规划和工具选择的挑战。
May, 2024
最近,利用大型语言模型(LLMs)进行工具学习已经成为增强LLMs能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展,但现有文献仍然零散且缺乏系统组织,对于新手来说存在进入障碍。本文通过对现有关于LLMs工具学习的文献进行综述,旨在探讨为什么工具学习有益以及如何实现工具学习,从而全面了解LLMs工具学习。首先,我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨“为什么”。在“如何”方面,我们根据工具学习工作流程的四个关键阶段(任务规划、工具选择、工具调用和响应生成)系统综述了现有文献。此外,我们还详细总结了现有的基准和评估方法,并根据其与不同阶段的相关性进行分类。最后,我们讨论了当前的挑战,并概述了潜在的未来方向,旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。
May, 2024