Aug, 2023

使用离线强化学习与人类反馈对齐语言模型

TL;DR通过离线强化学习从人类反馈中对齐语言模型,采用最大似然估计、加权回归奖励和决策变换方法,实现了比在线 RL 方法更稳定的模型训练和更高的性能。