孔子:通过易到难课程反思反馈的迭代式工具学习
提出了一种仿生的方法,即模拟试错(STE),通过协调三个关键机制:试错、想象和记忆,为工具增强的大型语言模型(LLMs)提供成功使用工具的行为。通过在 ToolBench 上进行的综合实验,证明 STE 在上下文学习和微调设置下显著改善了 LLMs 的工具学习,为 Mistral-Instruct-7B 带来了 46.7% 的提升,并使其胜过 GPT-4。同时还展示了通过简单的经验重放策略有效地进行工具的持续学习。
Mar, 2024
最近,利用大型语言模型(LLMs)进行工具学习已经成为增强 LLMs 能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展,但现有文献仍然零散且缺乏系统组织,对于新手来说存在进入障碍。本文通过对现有关于 LLMs 工具学习的文献进行综述,旨在探讨为什么工具学习有益以及如何实现工具学习,从而全面了解 LLMs 工具学习。首先,我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨 “为什么”。在 “如何” 方面,我们根据工具学习工作流程的四个关键阶段(任务规划、工具选择、工具调用和响应生成)系统综述了现有文献。此外,我们还详细总结了现有的基准和评估方法,并根据其与不同阶段的相关性进行分类。最后,我们讨论了当前的挑战,并概述了潜在的未来方向,旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。
May, 2024
大型语言模型具有解决语言相关任务的天赋,但由于它们静止于参数中的知识的局限性,存在无法应对信息变化和任务技能过时的问题。工具使用能帮助 LLM 通过接口获得外部系统的支持,但使用工具的 LLM 仍需适应不稳定的环境,并且需要学会使用预定义的工具。为验证这一观点,我们开发了一个合成基准并聚合了现有的自然语言处理任务,形成一个更加真实的测试场景。我们证明模型规模扩大并非解决方案,而不论是否使用工具,持续学习技术都能使工具型 LLM 更快适应并遗忘更少,凸显了它们作为持续学习者的潜力。
Apr, 2024
首个可自动生成指示遵循训练数据的可扩展可靠方法 AutoIF,能够显著提高大型语言模型的指示遵循能力,有效应用于 SFT、Offline DPO 和 Online DPO 训练算法,可在自对齐和强对弱蒸馏设置下用于开源 LLMs 的优化。
Jun, 2024
利用工具学习来增强大型语言模型作为代理人使用外部工具来扩展其能力。我们提出了合作互动的代理人(ConAgents)框架,将工具学习的工作流程模块化为基础,执行和观察代理人,并引入迭代校准(IterCali)方法,以适应工具环境的反馈。实验证明我们的 ConAgents 框架在三个数据集上优于 SOTA 基准,同时我们还提供了对框架的效率和一致性的细粒度分析。
Mar, 2024
通过自动工具链和黑盒探测方法,为大型语言模型提供了扩展功能,使其成为多工具用户,能够主动发现和使用新工具,从而解决实际任务中的规划和工具选择的挑战。
May, 2024
通过自我验证方法,在语言模型中学习使用工具是构建通用助手的重要里程碑,但仍然是一个尚未解决的问题。本研究介绍了一种通过自我对比问题在工具选择和参数生成过程中区分相似候选项的方法。在 ToolBench 基准测试的四个任务上进行了大量实验,包括了 17 个之前未见的工具,结果显示相较于少样本基准线平均提高了 22%,即使在候选工具之间的区别非常微妙的情况下也能有效改进。
Feb, 2024
通过引入 ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA,我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力,并与 ChatGPT 有着相当的性能。为了使流程更加实用,我们设计了一个神经 API 检索器以为每个指令推荐适当的 API,省去了手动选择 API 的繁琐步骤。
Jul, 2023
通过对两个基准数据集的广泛实验,我们发现几个有深远意义的结论,包括观察到大语言模型可以从增加试验和探索中获益。我们相信我们的实证研究为未来的工具学习研究提供了新的视角。
Jul, 2024