工具规划师:一种工具增强的多粒度指令的LLM,具有路径规划和反馈机制
本文主要介绍了使用基于强化学习的调解模型,来解决使用大型语言模型进行高级指令的效率和成本问题,并在四种实验环境下验证了该方法的准确性和效率。
Jun, 2023
通过引入ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA,我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力,并与ChatGPT有着相当的性能。为了使流程更加实用,我们设计了一个神经API检索器以为每个指令推荐适当的API,省去了手动选择API的繁琐步骤。
Jul, 2023
通过使用工具和自然语言反馈,MINT基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力,并从20个开源和闭源的语言模型分析中发现,在工具交互和自然语言反馈的情况下,LLMs的性能有所提升。
Sep, 2023
这项调研重点关注任务导向的LLM系统的设计空间,通过思考实验对不同的LLM系统配置性能进行探索,并对LLM增强、提示技术和不确定性估计等设计参数进行讨论,提出了七个猜想以指导未来的研究努力。
Dec, 2023
我们提出了一个模块化的多语言模型框架,将大型语言模型能力分解为规划器、调用器和摘要生成器,并通过两阶段训练范式有效地训练该框架,该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果,凸显了其在工具学习中的功效和优势。
Jan, 2024
提出了一种仿生的方法,即模拟试错(STE),通过协调三个关键机制:试错、想象和记忆,为工具增强的大型语言模型(LLMs)提供成功使用工具的行为。通过在ToolBench上进行的综合实验,证明STE在上下文学习和微调设置下显著改善了LLMs的工具学习,为Mistral-Instruct-7B带来了46.7%的提升,并使其胜过GPT-4。同时还展示了通过简单的经验重放策略有效地进行工具的持续学习。
Mar, 2024
实际多模态问题很少通过单一的机器学习模型来解决,通常需要多步计算计划,涉及多个模型的组合。本文引入了一个包含4K+多步多模态任务的基准,其中包括33种工具,涵盖多模态模型、(免费)公共API和图像处理模块,通过使用实际工具集生成自动计划,并提供了一个高质量、可人工验证并可正确执行的任务计划子集。通过对6种流行的LLM模型进行评估,采用两种规划策略(多步骤与逐步规划)、两种计划格式(JSON与代码)和三种反馈类型(解析/验证/执行),并总结了广泛实验的经验教训。
Mar, 2024
最近,利用大型语言模型(LLMs)进行工具学习已经成为增强LLMs能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展,但现有文献仍然零散且缺乏系统组织,对于新手来说存在进入障碍。本文通过对现有关于LLMs工具学习的文献进行综述,旨在探讨为什么工具学习有益以及如何实现工具学习,从而全面了解LLMs工具学习。首先,我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨“为什么”。在“如何”方面,我们根据工具学习工作流程的四个关键阶段(任务规划、工具选择、工具调用和响应生成)系统综述了现有文献。此外,我们还详细总结了现有的基准和评估方法,并根据其与不同阶段的相关性进行分类。最后,我们讨论了当前的挑战,并概述了潜在的未来方向,旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。
May, 2024
通过Tool-Planner框架,基于API函数将工具分组成一个工具包,允许大型语言模型在不同工具包之间实现计划,解决了冗余错误校正和多工具之间正确计划的挑战,实验表明该方法在不同数据集上具有很高的通过率和胜率,并优化了GPT-4和Claude 3等模型中工具学习的计划方案,展示了我们方法的潜力。
Jun, 2024
本研究针对大型语言模型(LLMs)在特定复杂任务中效率和准确性不足的问题,提出了一种教学LLMs使用外部工具的标准化方法。该论文的主要发现揭示了LLMs如何在理解用户意图和动态调整计划的基础上,克服工具选择和调用时机等挑战,探索了从工具使用者转变为工具创造者的新视角。
Sep, 2024