在 Imaginarium 中的 LLMs: 通过模拟试错学习工具

Mar, 2024

在 Imaginarium 中的 LLMs: 通过模拟试错学习工具

LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error

Boshi Wang, Hao Fang, Jason Eisner, Benjamin Van Durme, Yu Su

TL;DR提出了一种仿生的方法，即模拟试错（STE），通过协调三个关键机制：试错、想象和记忆，为工具增强的大型语言模型（LLMs）提供成功使用工具的行为。通过在 ToolBench 上进行的综合实验，证明 STE 在上下文学习和微调设置下显著改善了 LLMs 的工具学习，为 Mistral-Instruct-7B 带来了 46.7% 的提升，并使其胜过 GPT-4。同时还展示了通过简单的经验重放策略有效地进行工具的持续学习。

Abstract

Tools are essential for large language models (LLMs) to acquire up-to-date information and take consequential actions in external environments. Existing work on tool-augmented llms primarily focuses on the broad

large language models tool-augmented llms simulated trial and error memory continual learning

发现论文，激发创造

元工具基准：决定是否使用工具以及选择哪个工具

本文提出了 MetaTool，这是一个用于评估大型语言模型（LLMs）的工具使用意识和正确选择工具能力的基准测试，并通过实验证明大多数 LLMs 在工具选择方面仍然存在困难。

Oct, 2023

朝实用性工具使用的方向：为不断学习的 LLMs 而努力

大型语言模型具有解决语言相关任务的天赋，但由于它们静止于参数中的知识的局限性，存在无法应对信息变化和任务技能过时的问题。工具使用能帮助 LLM 通过接口获得外部系统的支持，但使用工具的 LLM 仍需适应不稳定的环境，并且需要学会使用预定义的工具。为验证这一观点，我们开发了一个合成基准并聚合了现有的自然语言处理任务，形成一个更加真实的测试场景。我们证明模型规模扩大并非解决方案，而不论是否使用工具，持续学习技术都能使工具型 LLM 更快适应并遗忘更少，凸显了它们作为持续学习者的潜力。

Apr, 2024

利用大型语言模型的迭代反馈增强工具检索

通过迭代反馈的方式，提高大型语言模型对工具检索的理解，从而在领域内外的评估中取得卓越表现。

Jun, 2024

大型语言模型作为工具制造者

该研究提出了一种基于大型语言模型 (LLMs) 的闭环框架 LLMs As Tool Makers (LATM)，通过该框架，LLMs 可以自己创建可重用的工具以解决问题，并验证了该方法在包括 Big-Bench 任务在内的复杂推理任务中的有效性，使用 GPT-4 作为工具制造者和 GPT-3.5 作为工具用户，LATM 的性能与使用 GPT-4 制造和使用工具的性能相当，而推理成本显著降低。

May, 2023

大语言模型的工具学习：综述

最近，利用大型语言模型（LLMs）进行工具学习已经成为增强 LLMs 能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展，但现有文献仍然零散且缺乏系统组织，对于新手来说存在进入障碍。本文通过对现有关于 LLMs 工具学习的文献进行综述，旨在探讨为什么工具学习有益以及如何实现工具学习，从而全面了解 LLMs 工具学习。首先，我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨 “为什么”。在 “如何” 方面，我们根据工具学习工作流程的四个关键阶段（任务规划、工具选择、工具调用和响应生成）系统综述了现有文献。此外，我们还详细总结了现有的基准和评估方法，并根据其与不同阶段的相关性进行分类。最后，我们讨论了当前的挑战，并概述了潜在的未来方向，旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。

May, 2024

Tool-LMM：一个用于工具智能学习的大型多模态模型

通过使用多模态编码器将开源大语言模型（LLM）与多模态输入指令结合起来，我们提出了 Tool-LMM 系统，使学习的 LLMs 能够意识到多模态输入指令并正确选择匹配功能的工具，实验证明我们的 LMM 能够为多模态指令推荐适当的工具。

Jan, 2024

ToolLLM: 促进大型语言模型掌握 16000 + 现实世界 API

通过引入 ToolLLM，一个包括数据构建、模型训练和评估的通用工具使用框架，我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench，并使用深度优先搜索决策树（DFSDT）扩展搜索空间，有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA，我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力，并与 ChatGPT 有着相当的性能。为了使流程更加实用，我们设计了一个神经 API 检索器以为每个指令推荐适当的 API，省去了手动选择 API 的繁琐步骤。

Jul, 2023

推进工具增强型大型语言模型：整合推断树中错误的见解

基于决策树的推理轨迹优化框架提高了工具辅助大型语言模型的推理性能和泛化能力，解决了基于路径的训练方法的局限性，同时透过错误推理路径的洞察力，提高了复杂工具使用推理任务的推理效率。

Jun, 2024

孔子：通过易到难课程反思反馈的迭代式工具学习

利用 Confucius 框架来扩充大型语言模型的能力，使其能够在真实世界应用场景中学习并使用复杂的外部工具。

Aug, 2023

从总结到行动：利用开放式接口增强大规模语言模型对复杂任务的应用

人类与动物之间的区别在于人类可以使用和创造工具，而使大型语言模型具备学习外部工具使用的能力可以成为实现人工智能的重要一步。本研究引入了一种新的工具调用管道，设计用于控制庞大的真实世界应用程序接口，通过 ` 从摘要到行动 ' 的 Sum2Act 管道，在复杂的真实用户查询中模拟人类解决问题的过程，从而提高了大型语言模型的性能，优于现有的方法。

Feb, 2024