Jan, 2024

迭代数据平滑:在 RLHF 中缓解奖励过拟合和过优化

TL;DR本研究探讨了来自人类反馈的强化学习(RLHF)技术,通过利用排名数据的奖励模型学习人类价值观,设计了一种称为 “迭代数据平滑”(IDS)的改进奖励学习算法,实证发现该方法表现优于传统方法。