着眼决策感知和通用化的大规模语言模型工具使用
该研究提出了一种基于大型语言模型(LLMs)的闭环框架LLMs As Tool Makers(LATM),通过该框架,LLMs可以自己创建可重用的工具以解决问题,并验证了该方法在包括Big-Bench任务在内的复杂推理任务中的有效性,使用GPT-4作为工具制造者和GPT-3.5作为工具用户,LATM的性能与使用GPT-4制造和使用工具的性能相当,而推理成本显著降低。
May, 2023
GEAR是一种计算高效的查询工具接地算法,能够在不依赖任务特定演示的情况下,提供任务特定工具的使用,并且具有更高的计算效率和较高的工具接地精确性。
Jul, 2023
通过引入ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA,我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力,并与ChatGPT有着相当的性能。为了使流程更加实用,我们设计了一个神经API检索器以为每个指令推荐适当的API,省去了手动选择API的繁琐步骤。
Jul, 2023
本文提出了 MetaTool,这是一个用于评估大型语言模型(LLMs)的工具使用意识和正确选择工具能力的基准测试,并通过实验证明大多数LLMs在工具选择方面仍然存在困难。
Oct, 2023
ToolNet是一个可拔插的框架,通过将工具组织成有向图的方式,使大语言模型能够处理成千上万个工具,并通过迭代选择来解决问题,从而在具有挑战性的多跳工具学习数据集中取得显著结果,并且具有工具故障的弹性。
Feb, 2024
通过自动工具链和黑盒探测方法,为大型语言模型提供了扩展功能,使其成为多工具用户,能够主动发现和使用新工具,从而解决实际任务中的规划和工具选择的挑战。
May, 2024
最近,利用大型语言模型(LLMs)进行工具学习已经成为增强LLMs能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展,但现有文献仍然零散且缺乏系统组织,对于新手来说存在进入障碍。本文通过对现有关于LLMs工具学习的文献进行综述,旨在探讨为什么工具学习有益以及如何实现工具学习,从而全面了解LLMs工具学习。首先,我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨“为什么”。在“如何”方面,我们根据工具学习工作流程的四个关键阶段(任务规划、工具选择、工具调用和响应生成)系统综述了现有文献。此外,我们还详细总结了现有的基准和评估方法,并根据其与不同阶段的相关性进行分类。最后,我们讨论了当前的挑战,并概述了潜在的未来方向,旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。
May, 2024
基于决策树的推理轨迹优化框架提高了工具辅助大型语言模型的推理性能和泛化能力,解决了基于路径的训练方法的局限性,同时透过错误推理路径的洞察力,提高了复杂工具使用推理任务的推理效率。
Jun, 2024
大型语言模型(LLMs)虽然在自然语言处理任务中表现出色,但仍需要外部工具来扩展其能力。本研究探索LLMs是否能够确定其能力边界并灵活使用工具,提出WTU-Eval基准评估来评估LLMs的性能,并通过细调数据集改善工具决策,结果显示LLMs在一般数据集中难以确定工具使用,并且错误的工具使用显著损害了LLMs的性能。
Jul, 2024
本研究针对大型语言模型(LLMs)在特定复杂任务中效率和准确性不足的问题,提出了一种教学LLMs使用外部工具的标准化方法。该论文的主要发现揭示了LLMs如何在理解用户意图和动态调整计划的基础上,克服工具选择和调用时机等挑战,探索了从工具使用者转变为工具创造者的新视角。
Sep, 2024