奖励模型合集有助于缓解过度优化
采用奖励集成方法,我们研究如何改进 Reinforcement Learning from Human Feedback (RLHF) 模型对人类价值观的对齐效果,通过使用多个大型语言模型的奖励模型集成,提高了 RLHF 输出的对齐性能。
Jan, 2024
引入对抗性策略优化 (AdvPO) 作为一种解决强化学习从人类反馈中的奖励过度优化问题的新方法,通过对奖励模型的不确定性进行量化,并通过分布鲁棒优化处理奖励模型的置信区间,从而增强性能。
Mar, 2024
强化学习来自人类反馈(RLHF)作为一种有前途的方法,用于与大型语言模型(LLMs)对齐。然而,RLHF 中一个显著的挑战是过度优化,即在超过某个阈值后,追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性,我们检视了现有 RLHF 方法中常用的 KL 正则化的弱点。为了增强奖励模型的不确定性量化能力,我们首先提出了多样化的低秩适应(LoRA)集成方法,通过最大化 LoRA 矩阵串联的核范数。然后,我们利用多样化奖励 LoRA 集合提供的奖励和不确定性来优化策略模型。基于两个真实人类偏好数据集的实验结果显示了多样化奖励 LoRA 集合在量化奖励不确定性方面的有效性。此外,UP-RLHF 中的不确定性正则化在减轻过度优化方面起到关键作用,从而提高整体性能。
Dec, 2023
为了确保大型语言模型的回复是有用且无毒的,通常我们会在人类偏好数据上对奖励模型进行微调。然后,我们选择具有高奖励的策略回复(最佳 n 采样),或者进一步优化策略以生成具有高奖励的回复(从人类反馈中进行强化学习)。然而,这个过程容易受到奖励过度优化或黑客攻击的影响,即所选择的回复之所以具有高奖励是因为奖励模型中存在错误,而不是真正的偏好。通过训练贝叶斯奖励模型,可以缓解这些问题,该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此,我们使用 Laplace-LoRA(Yang 等,2024 年)训练了贝叶斯奖励模型,并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。
Feb, 2024
通过使用深度神经网络同时学习模型和策略,我们分析了基于模型的增强学习方法的行为,并展示出学习到的策略倾向于利用模型学习不足的区域,导致训练不稳定。为了解决这个问题,我们提出使用模型集合来维护模型的不确定性并规范学习过程,并进一步展示,与 “Backpropagation through time” 相比,使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO,在具有挑战性的连续控制基准任务中,显著减少了比基于模型的深度 RL 方法所需的样本数量。
Feb, 2018
本研究提出了一种名为正则化最佳 - n (RBoN) 的策略,通过在响应选择中加入相似性项来减少奖励欺骗问题,并评估了其在 AlpacaFarm 数据集上的表现,发现它们在代理奖励模型与真实目标的相关性较低时优于最佳 - n (BoN)。
Apr, 2024
奖励模型、语言模型、奖励欺骗、奖励集合以及对齐是该研究论文的关键词,研究内容主要探讨了奖励模型在校准语言模型应用中的应用及存在的问题。
Dec, 2023
通过权重偏好优化方法(WPO),我们提出了一种新的策略来缓解离策略偏好优化中分布差异的问题,该方法通过重新加权优先级对预期对策激励进行了模拟,从而更好地逼近离策略数据。我们在指令遵循评估基准上验证了我们的方法,并在 Alpaca Eval 2 上比直接优先权优化(DPO)的表现提高了最高 5.6%,并且在 Llama-3-8B-Instruct 上基于 GPT-4-turbo 建立了显着的长度控制胜率为 48.6%,使其成为排行榜上最强的 8B 模型。
Jun, 2024