Feb, 2024

不要忘记奖励值:基于值的校准实现语言模型的对齐

TL;DR通过提出一种新的基于价值的校准方法,本文研究了强化学习从人类反馈中提高大型语言模型生成质量的问题,并通过实验结果证明该方法在不同环境中具有出色的泛化能力、稳定性和鲁棒性。