应用示范引导强化学习来对抗 LLM 中的奖励过度优化
基于大型语言模型的基石模型,通过人类反馈的强化学习训练来捕捉期望的行为,并通过奖励模型对语言模型进行校准。然而,很少有研究评估这些奖励模型对分布偏移的鲁棒性,本研究评估了奖励模型性能与分布偏移的关系,并展示了由于异常输入导致的校准和准确率下降问题,并提出了在奖励模型中检测分布偏移的方法。
Nov, 2023
基于规则模型的泛化能力有限,而本研究提出了一种新颖的方法来增强奖励模型对分布偏移的泛化能力,并有效减轻强化学习反馈中的过优化问题。
Jun, 2024
强化学习来自人类反馈(RLHF)作为一种有前途的方法,用于与大型语言模型(LLMs)对齐。然而,RLHF 中一个显著的挑战是过度优化,即在超过某个阈值后,追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性,我们检视了现有 RLHF 方法中常用的 KL 正则化的弱点。为了增强奖励模型的不确定性量化能力,我们首先提出了多样化的低秩适应(LoRA)集成方法,通过最大化 LoRA 矩阵串联的核范数。然后,我们利用多样化奖励 LoRA 集合提供的奖励和不确定性来优化策略模型。基于两个真实人类偏好数据集的实验结果显示了多样化奖励 LoRA 集合在量化奖励不确定性方面的有效性。此外,UP-RLHF 中的不确定性正则化在减轻过度优化方面起到关键作用,从而提高整体性能。
Dec, 2023
通过引入批评语言模型的框架,利用密集奖励对强化学习中的稀疏奖励进行补偿,本研究在情感控制、语言模型去毒化和摘要生成等三个文本生成任务中验证了该方法的有效性,实验证明在训练过程中引入人工密集奖励相较于以整体奖励为基线的 PPO 算法能够稳定提升性能,并且在同一模型作为策略模型和批评模型的设定下,还能提高学习效率。
Jan, 2024
本文研究了强化学习的探索效率问题。提出了一种基于专家演示的强化学习方法,通过将专家指导视为对智能体政策探索的软约束,最终转化为一个约束优化问题,并采用局部线性搜索来高效解决。在广泛的基准测试中,我们的方法比其他方法获得了更好的结果。
Nov, 2019