Dec, 2023

弹性重置的语言模型对齐

TL;DR使用弹性复位算法对语言模型进行微调,以在获得更高奖励的同时减少语言漂移,达到最佳性能。