Dec, 2023

纳什学习来自人类反馈

TL;DR通过带有人类反馈的强化学习,我们引入一种新的方法来提升大型语言模型的性能,通过学习人类偏好并优化策略,实现与人类偏好的协调。