小型LLM是弱工具学习者:多LLM代理
通过引入ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA,我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力,并与ChatGPT有着相当的性能。为了使流程更加实用,我们设计了一个神经API检索器以为每个指令推荐适当的API,省去了手动选择API的繁琐步骤。
Jul, 2023
AgentTuning是一种简单且通用的方法,可以提高大型语言模型在代理任务方面的能力,同时保持其一般能力。该方法通过使用AgentInstruct与通用领域的开源指令相结合的混合指令调整策略对Llama 2系列进行了指令调整,从而得到AgentLM。评估结果显示,AgentTuning能够提升语言模型的代理能力而不影响其一般能力,AgentLM-70B在未知代理任务上与GPT-3.5-turbo相媲美,展现了广义的代理能力。我们在指定的网址开源了AgentInstruct和AgentLM-7B、13B和70B模型,为代理任务提供了开源和强大的替代方案。
Oct, 2023
通过将代码集成到大型语言模型的训练数据中,可以提高语言模型的代码生成能力、推理能力以及生成结构化和精确的中间步骤,并将其转化为智能代理在复杂自然语言任务中的应用。
Jan, 2024
通过使用多模态编码器将开源大语言模型(LLM)与多模态输入指令结合起来,我们提出了Tool-LMM系统,使学习的LLMs能够意识到多模态输入指令并正确选择匹配功能的工具,实验证明我们的LMM能够为多模态指令推荐适当的工具。
Jan, 2024
本研究探讨了利用工具增强大规模语言模型在处理复杂环境中的潜力,并通过在知识库和数据库等复杂环境中的实证来展示这种潜力。结果表明,配备这些工具的GPT-4在需要访问数据库内容的任务中性能提高了2.8倍,在知识库任务中提高了2.2倍。这些发现为在复杂实际应用中推进语言模型的发展指明了方向。
Feb, 2024
通过构建特定于代理的数据和有监督微调模型,以及设计有效激活大型语言模型推理能力的提示方法,我们提出了一种综合的方法来提高大型语言模型作为代理的性能,并通过在AgentBench的五个代理任务上的评估取得了令人满意的结果。
Mar, 2024
最近,利用大型语言模型(LLMs)进行工具学习已经成为增强LLMs能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展,但现有文献仍然零散且缺乏系统组织,对于新手来说存在进入障碍。本文通过对现有关于LLMs工具学习的文献进行综述,旨在探讨为什么工具学习有益以及如何实现工具学习,从而全面了解LLMs工具学习。首先,我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨“为什么”。在“如何”方面,我们根据工具学习工作流程的四个关键阶段(任务规划、工具选择、工具调用和响应生成)系统综述了现有文献。此外,我们还详细总结了现有的基准和评估方法,并根据其与不同阶段的相关性进行分类。最后,我们讨论了当前的挑战,并概述了潜在的未来方向,旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。
May, 2024
本研究针对大型语言模型(LLMs)在特定复杂任务中效率和准确性不足的问题,提出了一种教学LLMs使用外部工具的标准化方法。该论文的主要发现揭示了LLMs如何在理解用户意图和动态调整计划的基础上,克服工具选择和调用时机等挑战,探索了从工具使用者转变为工具创造者的新视角。
Sep, 2024
本研究针对大型语言模型(LLMs)与外部工具之间理解差距的问题,提出了一种新框架DRAFT,旨在通过分析LLMs与工具交互的反馈和轨迹动态完善工具文档。实验表明,DRAFT显著提高了文档质量,使得LLMs对工具的理解更深刻,从而提高了工具的有效利用效率。
Oct, 2024