Sep, 2024

奖励鲁棒性RLHF在大型语言模型中的应用

TL;DR本研究解决了基于奖励模型的对齐方法由于不稳定性和不完美性带来的挑战,旨在提升大型语言模型(LLMs)的学习可靠性。通过引入一种新的优化目标,结合贝叶斯奖励模型集(BRME)来建模奖励函数的不确定性,该框架在保障性能的同时提高鲁棒性。实证结果表明,该框架在各类基准测试中表现优于传统的RLHF方法,显示出更高的准确性和长期稳定性。