Dec, 2023

基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习

TL;DR强化学习来自人类反馈(RLHF)作为一种有前途的方法,用于与大型语言模型(LLMs)对齐。然而,RLHF 中一个显著的挑战是过度优化,即在超过某个阈值后,追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性,我们检视了现有 RLHF 方法中常用的 KL 正则化的弱点。为了增强奖励模型的不确定性量化能力,我们首先提出了多样化的低秩适应(LoRA)集成方法,通过最大化 LoRA 矩阵串联的核范数。然后,我们利用多样化奖励 LoRA 集合提供的奖励和不确定性来优化策略模型。基于两个真实人类偏好数据集的实验结果显示了多样化奖励 LoRA 集合在量化奖励不确定性方面的有效性。此外,UP-RLHF 中的不确定性正则化在减轻过度优化方面起到关键作用,从而提高整体性能。