Feb, 2024

LLM 对齐的贝叶斯奖励模型

TL;DR为了确保大型语言模型的回复是有用且无毒的,通常我们会在人类偏好数据上对奖励模型进行微调。然后,我们选择具有高奖励的策略回复(最佳 n 采样),或者进一步优化策略以生成具有高奖励的回复(从人类反馈中进行强化学习)。然而,这个过程容易受到奖励过度优化或黑客攻击的影响,即所选择的回复之所以具有高奖励是因为奖励模型中存在错误,而不是真正的偏好。通过训练贝叶斯奖励模型,可以缓解这些问题,该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此,我们使用 Laplace-LoRA(Yang 等,2024 年)训练了贝叶斯奖励模型,并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。