Feb, 2024
不要忘记奖励值:基于值的校准实现语言模型的对齐
Don't Forget Your Reward Values: Language Model Alignment via Value-based Calibration
Xin Mao, Feng-Lin Li, Huimin Xu, Wei Zhang, Anh Tuan Luu
TL;DR通过提出一种新的基于价值的校准方法,本文研究了强化学习从人类反馈中提高大型语言模型生成质量的问题,并通过实验结果证明该方法在不同环境中具有出色的泛化能力、稳定性和鲁棒性。