Toolformer：语言模型可以自学使用工具

Feb, 2023

Toolformer：语言模型可以自学使用工具

Toolformer: Language Models Can Teach Themselves to Use Tools

Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli...

TL;DR本文提出 Toolformer 模型，利用简单的 API 可以帮助语言模型自动完成一些功能，如计算或答疑系统，并显著提高其在一些下游任务上的表现。

Abstract

language models (LMs) exhibit remarkable abilities to solve new tasks from just a few examples or textual instructions, especially at scale. They also, paradoxically, struggle with basic functionality, such as arithmetic or factual lookup, where much simpler and smaller models excel. I

language models toolformer apis self-supervised learning downstream tasks

发现论文，激发创造

大型语言模型作为工具制造者

该研究提出了一种基于大型语言模型 (LLMs) 的闭环框架 LLMs As Tool Makers (LATM)，通过该框架，LLMs 可以自己创建可重用的工具以解决问题，并验证了该方法在包括 Big-Bench 任务在内的复杂推理任务中的有效性，使用 GPT-4 作为工具制造者和 GPT-3.5 作为工具用户，LATM 的性能与使用 GPT-4 制造和使用工具的性能相当，而推理成本显著降低。

May, 2023

TALM: 工具增强型语言模型

本文介绍了一种基于迭代 “自我对弈” 技术的文本增强语言模型方法，使用不可微分的工具扩充语言模型功能，成功在知识丰富型问答和简单工具所需的数学任务中具有很强的表现力，优于非增强型语言模型，在 QA 和数学任务的超越分布推理方面更是取得了成功，证明了工具增强型语言模型是一种非常有前景的方法，可以使语言模型在不依赖于模型（尺度）的基础上具备更多的能力。

May, 2022

TOOLVERIFIER：通过自验证实现针对新工具的泛化

通过自我验证方法，在语言模型中学习使用工具是构建通用助手的重要里程碑，但仍然是一个尚未解决的问题。本研究介绍了一种通过自我对比问题在工具选择和参数生成过程中区分相似候选项的方法。在 ToolBench 基准测试的四个任务上进行了大量实验，包括了 17 个之前未见的工具，结果显示相较于少样本基准线平均提高了 22％，即使在候选工具之间的区别非常微妙的情况下也能有效改进。

Feb, 2024

为金融中的表格数据分析赋予语言模型工具使用能力

通过使用外部工具对语言模型进行增强，可缓解传播误差和幻觉等挑战，特别是在数据异构、精确性至关重要的金融领域。我们将监督微调应用于 LLaMA-2 13B Chat 模型，使其成为 ' 任务路由器 ' 和 ' 任务解决器 '。通过使用金融领域的问答数据集，我们的模型 Raven 在改进基准模型和仅进行监督微调的基线模型上分别显示了 35.2% 和 5.06% 的改进，并且与 GPT-3.5 取得了很好的竞争效果。据我们所知，这是首个探索对金融领域的语言模型进行工具增强的研究。

Jan, 2024

ToolLLM: 促进大型语言模型掌握 16000 + 现实世界 API

通过引入 ToolLLM，一个包括数据构建、模型训练和评估的通用工具使用框架，我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench，并使用深度优先搜索决策树（DFSDT）扩展搜索空间，有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA，我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力，并与 ChatGPT 有着相当的性能。为了使流程更加实用，我们设计了一个神经 API 检索器以为每个指令推荐适当的 API，省去了手动选择 API 的繁琐步骤。

Jul, 2023

小型 LLM 是弱工具学习者：多 LLM 代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

工具究竟是什么？来自语言模型视角的调查

语言模型和工具的定义、应用场景、效率以及未来研究的挑战和可能性的综述。

Mar, 2024

朝实用性工具使用的方向：为不断学习的 LLMs 而努力

大型语言模型具有解决语言相关任务的天赋，但由于它们静止于参数中的知识的局限性，存在无法应对信息变化和任务技能过时的问题。工具使用能帮助 LLM 通过接口获得外部系统的支持，但使用工具的 LLM 仍需适应不稳定的环境，并且需要学会使用预定义的工具。为验证这一观点，我们开发了一个合成基准并聚合了现有的自然语言处理任务，形成一个更加真实的测试场景。我们证明模型规模扩大并非解决方案，而不论是否使用工具，持续学习技术都能使工具型 LLM 更快适应并遗忘更少，凸显了它们作为持续学习者的潜力。

Apr, 2024

语言模型可自学习更好的编程

我们展示了一种能够通过 Python 解释器来过滤正确性的方法，使用 Language Models 能够合成编程问题和解决方案，并在自己的综合问题和验证解决方案方面进行微调，从而改进自身性能。

Jul, 2022

增强语言模型：一项综述调查

该论文回顾了一些带有推理技能和使用工具能力的语言模型增强技术，并将其称为增强语言模型 (ALMs)，该模型在缺失令牌预测的目标下，能够学习推理、使用工具，甚至执行任务，具有普通语言模型所没有的上下文处理能力，且在多个基准测试中优于普通语言模型，该技术有望解决传统语言模型的局限性，如可解释性、一致性和可扩展性问题。

Feb, 2023