Feb, 2024

ArCHer: 通过分层多轮强化学习训练语言模型代理

TL;DR通过采用分层强化学习方法并运行两个强化学习算法(高层和低层),本文开发了一种用于 fine-tuning 大型语言模型的多轮强化学习算法框架,能够在实现多轮任务以及获取延迟奖励的效率和性能上得到显著提升。