Toolformer:语言模型可以自学使用工具
该研究提出了一种基于大型语言模型 (LLMs) 的闭环框架 LLMs As Tool Makers (LATM),通过该框架,LLMs 可以自己创建可重用的工具以解决问题,并验证了该方法在包括 Big-Bench 任务在内的复杂推理任务中的有效性,使用 GPT-4 作为工具制造者和 GPT-3.5 作为工具用户,LATM 的性能与使用 GPT-4 制造和使用工具的性能相当,而推理成本显著降低。
May, 2023
本文介绍了一种基于迭代 “自我对弈” 技术的文本增强语言模型方法,使用不可微分的工具扩充语言模型功能,成功在知识丰富型问答和简单工具所需的数学任务中具有很强的表现力,优于非增强型语言模型,在 QA 和数学任务的超越分布推理方面更是取得了成功,证明了工具增强型语言模型是一种非常有前景的方法,可以使语言模型在不依赖于模型(尺度)的基础上具备更多的能力。
May, 2022
通过自我验证方法,在语言模型中学习使用工具是构建通用助手的重要里程碑,但仍然是一个尚未解决的问题。本研究介绍了一种通过自我对比问题在工具选择和参数生成过程中区分相似候选项的方法。在 ToolBench 基准测试的四个任务上进行了大量实验,包括了 17 个之前未见的工具,结果显示相较于少样本基准线平均提高了 22%,即使在候选工具之间的区别非常微妙的情况下也能有效改进。
Feb, 2024
通过使用外部工具对语言模型进行增强,可缓解传播误差和幻觉等挑战,特别是在数据异构、精确性至关重要的金融领域。我们将监督微调应用于 LLaMA-2 13B Chat 模型,使其成为 ' 任务路由器 ' 和 ' 任务解决器 '。通过使用金融领域的问答数据集,我们的模型 Raven 在改进基准模型和仅进行监督微调的基线模型上分别显示了 35.2% 和 5.06% 的改进,并且与 GPT-3.5 取得了很好的竞争效果。据我们所知,这是首个探索对金融领域的语言模型进行工具增强的研究。
Jan, 2024
通过引入 ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA,我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力,并与 ChatGPT 有着相当的性能。为了使流程更加实用,我们设计了一个神经 API 检索器以为每个指令推荐适当的 API,省去了手动选择 API 的繁琐步骤。
Jul, 2023
我们提出了一个模块化的多语言模型框架,将大型语言模型能力分解为规划器、调用器和摘要生成器,并通过两阶段训练范式有效地训练该框架,该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果,凸显了其在工具学习中的功效和优势。
Jan, 2024
大型语言模型具有解决语言相关任务的天赋,但由于它们静止于参数中的知识的局限性,存在无法应对信息变化和任务技能过时的问题。工具使用能帮助 LLM 通过接口获得外部系统的支持,但使用工具的 LLM 仍需适应不稳定的环境,并且需要学会使用预定义的工具。为验证这一观点,我们开发了一个合成基准并聚合了现有的自然语言处理任务,形成一个更加真实的测试场景。我们证明模型规模扩大并非解决方案,而不论是否使用工具,持续学习技术都能使工具型 LLM 更快适应并遗忘更少,凸显了它们作为持续学习者的潜力。
Apr, 2024
我们展示了一种能够通过 Python 解释器来过滤正确性的方法,使用 Language Models 能够合成编程问题和解决方案,并在自己的综合问题和验证解决方案方面进行微调,从而改进自身性能。
Jul, 2022
该论文回顾了一些带有推理技能和使用工具能力的语言模型增强技术,并将其称为增强语言模型 (ALMs),该模型在缺失令牌预测的目标下,能够学习推理、使用工具,甚至执行任务,具有普通语言模型所没有的上下文处理能力,且在多个基准测试中优于普通语言模型,该技术有望解决传统语言模型的局限性,如可解释性、一致性和可扩展性问题。
Feb, 2023