工具究竟是什么?来自语言模型视角的调查
最近,利用大型语言模型(LLMs)进行工具学习已经成为增强 LLMs 能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展,但现有文献仍然零散且缺乏系统组织,对于新手来说存在进入障碍。本文通过对现有关于 LLMs 工具学习的文献进行综述,旨在探讨为什么工具学习有益以及如何实现工具学习,从而全面了解 LLMs 工具学习。首先,我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨 “为什么”。在 “如何” 方面,我们根据工具学习工作流程的四个关键阶段(任务规划、工具选择、工具调用和响应生成)系统综述了现有文献。此外,我们还详细总结了现有的基准和评估方法,并根据其与不同阶段的相关性进行分类。最后,我们讨论了当前的挑战,并概述了潜在的未来方向,旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。
May, 2024
本文提出 Toolformer 模型,利用简单的 API 可以帮助语言模型自动完成一些功能,如计算或答疑系统,并显著提高其在一些下游任务上的表现。
Feb, 2023
大型语言模型具有解决语言相关任务的天赋,但由于它们静止于参数中的知识的局限性,存在无法应对信息变化和任务技能过时的问题。工具使用能帮助 LLM 通过接口获得外部系统的支持,但使用工具的 LLM 仍需适应不稳定的环境,并且需要学会使用预定义的工具。为验证这一观点,我们开发了一个合成基准并聚合了现有的自然语言处理任务,形成一个更加真实的测试场景。我们证明模型规模扩大并非解决方案,而不论是否使用工具,持续学习技术都能使工具型 LLM 更快适应并遗忘更少,凸显了它们作为持续学习者的潜力。
Apr, 2024
该研究提出了一种基于大型语言模型 (LLMs) 的闭环框架 LLMs As Tool Makers (LATM),通过该框架,LLMs 可以自己创建可重用的工具以解决问题,并验证了该方法在包括 Big-Bench 任务在内的复杂推理任务中的有效性,使用 GPT-4 作为工具制造者和 GPT-3.5 作为工具用户,LATM 的性能与使用 GPT-4 制造和使用工具的性能相当,而推理成本显著降低。
May, 2023
本文提出了 MetaTool,这是一个用于评估大型语言模型(LLMs)的工具使用意识和正确选择工具能力的基准测试,并通过实验证明大多数 LLMs 在工具选择方面仍然存在困难。
Oct, 2023
该论文回顾了一些带有推理技能和使用工具能力的语言模型增强技术,并将其称为增强语言模型 (ALMs),该模型在缺失令牌预测的目标下,能够学习推理、使用工具,甚至执行任务,具有普通语言模型所没有的上下文处理能力,且在多个基准测试中优于普通语言模型,该技术有望解决传统语言模型的局限性,如可解释性、一致性和可扩展性问题。
Feb, 2023
这篇研究论文总结了大型语言模型(LLMs)不同子类的最新发展,包括基于任务的金融 LLMs、多语言 LLMs、生物医学和临床 LLMs,以及视觉语言 LLMs 和代码语言模型。它还强调了聊天机器人和虚拟助手开发领域中的未解决问题,如增强自然语言处理、提升聊天机器人智能性以及解决道德和法律困境,旨在为对基于 LLMs 的聊天机器人和虚拟智能助手技术感兴趣的读者、开发者、学者和用户提供有用的信息和未来方向。
Jul, 2023
大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力,并有潜力对我们的社会产生重大影响。然而,这些能力所需的资源相当可观,强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果,从模型中心、数据中心和框架中心的角度,将文献进行了分类整理。我们还创建了一个 GitHub 存储库,在这个存储库中收集了本调研中涉及的论文,并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源,帮助他们系统地了解高效大型语言模型的研究进展,并激励他们为这个重要而激动人心的领域做出贡献。
Dec, 2023
近年来,在数学领域中,利用语言模型(LMs)取得了显著进展,本文从任务和方法论两个不同的角度对数学 LMs 进行了全面的调查和分类,揭示出大量的数学 LLMs 和超过 60 个数学数据集的应用和研究。
Dec, 2023
为了有效评估 Large Language Models(LLMs) 使用外部工具回答问题的能力,我们开发了一个名为 ToolQA 的新数据集,并使用可伸缩的自动化过程进行数据集的管理,并使用 13 种专门设计的工具进行交互以回答问题。
Jun, 2023