TPTU：基于大型语言模型的人工智能代理任务规划和工具使用

Aug, 2023

TPTU：基于大型语言模型的人工智能代理任务规划和工具使用

TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents

Jingqing Ruan, Yihong Chen, Bin Zhang, Zhiwei Xu, Tianpeng Bao...

TL;DR通过设计两种不同类型的代理进程（即一步代理和连续代理），我们在 LLM 的基础上实例化了一个结构化框架，评估了它们在 typcial 任务的任务规划和工具使用能力，并突出了这些模型的巨大潜力以及需要进一步研究和改进的领域。

Abstract

With recent advancements in natural language processing, Large Language Models (LLMs) have emerged as powerful tools for various real-world applications. Despite their prowess, the intrinsic generative abilities of LLMs may prove insufficient for handling complex tasks which necessitate a combination of →

large language models llm-based ai agents task planning tool usage inference process

发现论文，激发创造

TPTU-v2：在现实世界系统中增强基于大型语言模型的代理人的任务规划与工具使用

该论文介绍了一个综合框架，旨在增强基于大型语言模型的代理在实际系统中的任务规划和工具使用能力，通过 API 检索器选择相关 API、LLM 精调器调整基础 LLM 以增强规划和 API 调用能力、以及演示选择器用于区分难以辨别的 API 并进行上下文学习，验证结果显示每个组件及整合框架的有效性。

Nov, 2023

语言代理的元任务规划

此研究论文介绍了 Meta-Task Planning (MTP)，一种用于协作式基于大型语言模型的多智能体系统的零样本方法，通过将复杂任务分解成次级任务或元任务来简化任务规划，进而将每个元任务映射为可执行动作。该方法在 TravelPlanner 和 API-Bank 两个基准测试中进行了评估，取得了出色的结果，显示了将 LLM 与多智能体系统整合的巨大潜力。

May, 2024

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024

元工具基准：决定是否使用工具以及选择哪个工具

本文提出了 MetaTool，这是一个用于评估大型语言模型（LLMs）的工具使用意识和正确选择工具能力的基准测试，并通过实验证明大多数 LLMs 在工具选择方面仍然存在困难。

Oct, 2023

Tool-Planner: 大型语言模型的动态解决方案树规划与工具聚类

通过 Tool-Planner 框架，基于 API 函数将工具分组成一个工具包，允许大型语言模型在不同工具包之间实现计划，解决了冗余错误校正和多工具之间正确计划的挑战，实验表明该方法在不同数据集上具有很高的通过率和胜率，并优化了 GPT-4 和 Claude 3 等模型中工具学习的计划方案，展示了我们方法的潜力。

Jun, 2024

小型 LLM 是弱工具学习者：多 LLM 代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

ToolLLM: 促进大型语言模型掌握 16000 + 现实世界 API

通过引入 ToolLLM，一个包括数据构建、模型训练和评估的通用工具使用框架，我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench，并使用深度优先搜索决策树（DFSDT）扩展搜索空间，有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA，我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力，并与 ChatGPT 有着相当的性能。为了使流程更加实用，我们设计了一个神经 API 检索器以为每个指令推荐适当的 API，省去了手动选择 API 的繁琐步骤。

Jul, 2023

通过调整和多分支推理增强低参数 LLMs 的普通代理能力

通过构建特定于代理的数据和有监督微调模型，以及设计有效激活大型语言模型推理能力的提示方法，我们提出了一种综合的方法来提高大型语言模型作为代理的性能，并通过在 AgentBench 的五个代理任务上的评估取得了令人满意的结果。

Mar, 2024

利用大型语言模型扩展 AutoTutor 的创作能力

使用大型语言模型（LLMs）构建智能辅导系统，结合传统教学方法并实现更好的教学成果。

Feb, 2024

关于将大型语言模型（LLMs）纳入自动规划和调度（APS）的前景展望

自主规划和调度是人工智能中增长最快的领域之一，本研究通过对 126 篇论文进行全面检视，调查了 LLMs 在地址规划问题的各个方面时的独特应用，并提出了八个类别：语言翻译、计划生成、模型构建、多智能体规划、交互规划、启发式优化、工具集成以及脑启发式规划，强调 LLMs 与传统符号规划器的结合展示出潜力，揭示出一种有前景的神经符号化方法。

Jan, 2024