Sep, 2024

工具规划师:一种工具增强的多粒度指令的LLM,具有路径规划和反馈机制

TL;DR本研究解决了工具增强大语言模型与真实用户指令之间的差距,提出了MGToolBench训练数据集,以更好地反映真实场景。创新性地引入了ToolPlanner这一两阶段强化学习框架,通过路径规划和反馈机制,大幅提升了LLM的任务完成和指令遵循能力,实验结果显示相比现有模型显著提高了多项指标。