May, 2024

AGILE: 一种新的 LLM 智能体框架

TL;DR我们引入了一种名为 AGILE 的 LLM 代理的新框架,旨在通过使用 LLMs、记忆、工具和专家的互动,执行与用户进行复杂对话的任务。我们将这样的 LLM 代理的构建形式化为一种强化学习问题,其中 LLM 作为策略模型。我们通过有标记的操作数据和 PPO 算法对 LLM 进行微调,并针对问答问题发布了一个名为 ProductQA 的代理数据集。我们对 ProductQA 和 MedMCQA 进行了广泛的实验,结果表明基于 13B 和 7B LLMs 的 PPO 训练的 AGILE 代理可以胜过 GPT-4 代理。我们的消融研究突出了记忆、工具、咨询、反思和强化学习在实现代理的强大性能方面的重要性。