工具增强的大型语言模型是否能意识到不完整的条件?
本研究探讨了利用工具增强大规模语言模型在处理复杂环境中的潜力,并通过在知识库和数据库等复杂环境中的实证来展示这种潜力。结果表明,配备这些工具的 GPT-4 在需要访问数据库内容的任务中性能提高了 2.8 倍,在知识库任务中提高了 2.2 倍。这些发现为在复杂实际应用中推进语言模型的发展指明了方向。
Feb, 2024
本文提出了 MetaTool,这是一个用于评估大型语言模型(LLMs)的工具使用意识和正确选择工具能力的基准测试,并通过实验证明大多数 LLMs 在工具选择方面仍然存在困难。
Oct, 2023
最近,利用大型语言模型(LLMs)进行工具学习已经成为增强 LLMs 能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展,但现有文献仍然零散且缺乏系统组织,对于新手来说存在进入障碍。本文通过对现有关于 LLMs 工具学习的文献进行综述,旨在探讨为什么工具学习有益以及如何实现工具学习,从而全面了解 LLMs 工具学习。首先,我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨 “为什么”。在 “如何” 方面,我们根据工具学习工作流程的四个关键阶段(任务规划、工具选择、工具调用和响应生成)系统综述了现有文献。此外,我们还详细总结了现有的基准和评估方法,并根据其与不同阶段的相关性进行分类。最后,我们讨论了当前的挑战,并概述了潜在的未来方向,旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。
May, 2024
大型语言模型具有解决语言相关任务的天赋,但由于它们静止于参数中的知识的局限性,存在无法应对信息变化和任务技能过时的问题。工具使用能帮助 LLM 通过接口获得外部系统的支持,但使用工具的 LLM 仍需适应不稳定的环境,并且需要学会使用预定义的工具。为验证这一观点,我们开发了一个合成基准并聚合了现有的自然语言处理任务,形成一个更加真实的测试场景。我们证明模型规模扩大并非解决方案,而不论是否使用工具,持续学习技术都能使工具型 LLM 更快适应并遗忘更少,凸显了它们作为持续学习者的潜力。
Apr, 2024
通过使用多模态编码器将开源大语言模型(LLM)与多模态输入指令结合起来,我们提出了 Tool-LMM 系统,使学习的 LLMs 能够意识到多模态输入指令并正确选择匹配功能的工具,实验证明我们的 LMM 能够为多模态指令推荐适当的工具。
Jan, 2024
该研究提出了一种基于大型语言模型 (LLMs) 的闭环框架 LLMs As Tool Makers (LATM),通过该框架,LLMs 可以自己创建可重用的工具以解决问题,并验证了该方法在包括 Big-Bench 任务在内的复杂推理任务中的有效性,使用 GPT-4 作为工具制造者和 GPT-3.5 作为工具用户,LATM 的性能与使用 GPT-4 制造和使用工具的性能相当,而推理成本显著降低。
May, 2023
该论文回顾了一些带有推理技能和使用工具能力的语言模型增强技术,并将其称为增强语言模型 (ALMs),该模型在缺失令牌预测的目标下,能够学习推理、使用工具,甚至执行任务,具有普通语言模型所没有的上下文处理能力,且在多个基准测试中优于普通语言模型,该技术有望解决传统语言模型的局限性,如可解释性、一致性和可扩展性问题。
Feb, 2023
通过文献综述和第一手实验,本文研究了大型语言模型(LLMs)的潜力。尽管 LLMs 具有成本效益和高效性等优点,但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解,强调了成功和限制。此外,本文还讨论了缓解挑战的策略,如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作,并积极促进其负责任的应用,以此回应关于 LLMs 在研究中负责任应用的持续对话。
Apr, 2024
提出了一种仿生的方法,即模拟试错(STE),通过协调三个关键机制:试错、想象和记忆,为工具增强的大型语言模型(LLMs)提供成功使用工具的行为。通过在 ToolBench 上进行的综合实验,证明 STE 在上下文学习和微调设置下显著改善了 LLMs 的工具学习,为 Mistral-Instruct-7B 带来了 46.7% 的提升,并使其胜过 GPT-4。同时还展示了通过简单的经验重放策略有效地进行工具的持续学习。
Mar, 2024