Nov, 2023

基线分析奖励模型在分布转移下准确分析基础模型的能力

TL;DR基于大型语言模型的基石模型,通过人类反馈的强化学习训练来捕捉期望的行为,并通过奖励模型对语言模型进行校准。然而,很少有研究评估这些奖励模型对分布偏移的鲁棒性,本研究评估了奖励模型性能与分布偏移的关系,并展示了由于异常输入导致的校准和准确率下降问题,并提出了在奖励模型中检测分布偏移的方法。