TPTU:基于大型语言模型的人工智能代理任务规划和工具使用
该论文介绍了一个综合框架,旨在增强基于大型语言模型的代理在实际系统中的任务规划和工具使用能力,通过 API 检索器选择相关 API、LLM 精调器调整基础 LLM 以增强规划和 API 调用能力、以及演示选择器用于区分难以辨别的 API 并进行上下文学习,验证结果显示每个组件及整合框架的有效性。
Nov, 2023
此研究论文介绍了 Meta-Task Planning (MTP),一种用于协作式基于大型语言模型的多智能体系统的零样本方法,通过将复杂任务分解成次级任务或元任务来简化任务规划,进而将每个元任务映射为可执行动作。该方法在 TravelPlanner 和 API-Bank 两个基准测试中进行了评估,取得了出色的结果,显示了将 LLM 与多智能体系统整合的巨大潜力。
May, 2024
提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统,对大型语言模型和提示进行了广泛实验,并探索了基线任务规划器的多个改进,预计该基准工具将加快语言导向的任务规划器的发展。
Feb, 2024
本文提出了 MetaTool,这是一个用于评估大型语言模型(LLMs)的工具使用意识和正确选择工具能力的基准测试,并通过实验证明大多数 LLMs 在工具选择方面仍然存在困难。
Oct, 2023
通过 Tool-Planner 框架,基于 API 函数将工具分组成一个工具包,允许大型语言模型在不同工具包之间实现计划,解决了冗余错误校正和多工具之间正确计划的挑战,实验表明该方法在不同数据集上具有很高的通过率和胜率,并优化了 GPT-4 和 Claude 3 等模型中工具学习的计划方案,展示了我们方法的潜力。
Jun, 2024
我们提出了一个模块化的多语言模型框架,将大型语言模型能力分解为规划器、调用器和摘要生成器,并通过两阶段训练范式有效地训练该框架,该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果,凸显了其在工具学习中的功效和优势。
Jan, 2024
通过引入 ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA,我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力,并与 ChatGPT 有着相当的性能。为了使流程更加实用,我们设计了一个神经 API 检索器以为每个指令推荐适当的 API,省去了手动选择 API 的繁琐步骤。
Jul, 2023
通过构建特定于代理的数据和有监督微调模型,以及设计有效激活大型语言模型推理能力的提示方法,我们提出了一种综合的方法来提高大型语言模型作为代理的性能,并通过在 AgentBench 的五个代理任务上的评估取得了令人满意的结果。
Mar, 2024
自主规划和调度是人工智能中增长最快的领域之一,本研究通过对 126 篇论文进行全面检视,调查了 LLMs 在地址规划问题的各个方面时的独特应用,并提出了八个类别:语言翻译、计划生成、模型构建、多智能体规划、交互规划、启发式优化、工具集成以及脑启发式规划,强调 LLMs 与传统符号规划器的结合展示出潜力,揭示出一种有前景的神经符号化方法。
Jan, 2024