May, 2023

基于优势离线策略梯度的语言模型优化

TL;DR本文提出了一种名为 Left-over Lunch RL (LoL-RL) 的简单算法,通过离线策略梯度学习语言生成任务作为一步强化学习游戏来微调语言模型以优化任意分类器或人为定义的效用函数,并且通过使用多个奖励模型的不同大小的模型和多个任务的实验表明,使用LoL-RL训练的模型可以始终优于最佳监督学习模型。