元工具基准:决定是否使用工具以及选择哪个工具
使用大型语言模型(LLMs)来拓展助手功能,提供对私人或最新信息的访问和用户代理人操作行为的量化评估工具,称为 ToolTalk。该工具包括 28 个工具和 7 个插件,模拟实现每个工具,并强调对外部世界产生影响的工具。通过在 GPT-3.5 和 GPT-4 上应用 ToolTalk 评估,找出错误类别并提出改进方向。
Nov, 2023
该研究提出了一种基于大型语言模型 (LLMs) 的闭环框架 LLMs As Tool Makers (LATM),通过该框架,LLMs 可以自己创建可重用的工具以解决问题,并验证了该方法在包括 Big-Bench 任务在内的复杂推理任务中的有效性,使用 GPT-4 作为工具制造者和 GPT-3.5 作为工具用户,LATM 的性能与使用 GPT-4 制造和使用工具的性能相当,而推理成本显著降低。
May, 2023
通过提出一种决策感知和具有一般化的工具使用框架(DEER),本文旨在增强开源 LLMs 在操作工具方面的能力。通过构建工具使用样本和新颖的工具采样策略,DEER 在各个数据集上证明了其有效性和显著优于基准模型。
Feb, 2024
最近,利用大型语言模型(LLMs)进行工具学习已经成为增强 LLMs 能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展,但现有文献仍然零散且缺乏系统组织,对于新手来说存在进入障碍。本文通过对现有关于 LLMs 工具学习的文献进行综述,旨在探讨为什么工具学习有益以及如何实现工具学习,从而全面了解 LLMs 工具学习。首先,我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨 “为什么”。在 “如何” 方面,我们根据工具学习工作流程的四个关键阶段(任务规划、工具选择、工具调用和响应生成)系统综述了现有文献。此外,我们还详细总结了现有的基准和评估方法,并根据其与不同阶段的相关性进行分类。最后,我们讨论了当前的挑战,并概述了潜在的未来方向,旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。
May, 2024
通过使用多模态编码器将开源大语言模型(LLM)与多模态输入指令结合起来,我们提出了 Tool-LMM 系统,使学习的 LLMs 能够意识到多模态输入指令并正确选择匹配功能的工具,实验证明我们的 LMM 能够为多模态指令推荐适当的工具。
Jan, 2024
我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架,并创建了一个用于评估 LLM-based 评估器的精心策划的数据集,该数据集覆盖 10 种语言,包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能,结果表明,基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好,而 GPT-3.5-Turbo 的表现不佳。此外,我们对 LLM-based 评估器提供的推理进行分析,发现它往往与人类评判所提供的推理不一致。
Apr, 2024
通过引入 ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA,我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力,并与 ChatGPT 有着相当的性能。为了使流程更加实用,我们设计了一个神经 API 检索器以为每个指令推荐适当的 API,省去了手动选择 API 的繁琐步骤。
Jul, 2023
通过 UltraTool,我们提供了一个新的基准来改进和评估大型语言模型在实际场景中利用工具的能力,重点关注从规划、创建到应用工具的整个过程,并强调了真实世界的复杂性,需要准确的多步规划来解决问题,从而为这个快速发展的领域提供了新的见解。
Jan, 2024
通过设计两种不同类型的代理进程(即一步代理和连续代理),我们在 LLM 的基础上实例化了一个结构化框架,评估了它们在 typcial 任务的任务规划和工具使用能力,并突出了这些模型的巨大潜力以及需要进一步研究和改进的领域。
Aug, 2023
本研究探讨了利用工具增强大规模语言模型在处理复杂环境中的潜力,并通过在知识库和数据库等复杂环境中的实证来展示这种潜力。结果表明,配备这些工具的 GPT-4 在需要访问数据库内容的任务中性能提高了 2.8 倍,在知识库任务中提高了 2.2 倍。这些发现为在复杂实际应用中推进语言模型的发展指明了方向。
Feb, 2024