Feb, 2024

无需修改语言模型的训练语言模型代理

TL;DR通过AgentOptimizer提出了一种新的大型语言模型代理训练范式,通过更新代理的功能而不改变大型语言模型权重,通过回滚和提前停止策略来简化训练过程,可显著提高代理在各类下游任务中的性能。