奖励模型合集有助于缓解过度优化

ICLROct, 2023

奖励模型合集有助于缓解过度优化

Reward Model Ensembles Help Mitigate Overoptimization

Thomas Coste, Usman Anwar, Robert Kirk, David Krueger

TL;DR使用集合基的保守优化目标，能够在强化学习中有效抑制频繁优化，提高性能。

Abstract

reinforcement learning from human feedback (RLHF) is a standard approach for fine-tuning large language models to follow instructions. As part of this process, learned →

reinforcement learning human feedback reward models overoptimization conservative optimization

发现论文，激发创造

提高基于人类反馈的强化学习效果的高效奖励模型集成

采用奖励集成方法，我们研究如何改进 Reinforcement Learning from Human Feedback (RLHF) 模型对人类价值观的对齐效果，通过使用多个大型语言模型的奖励模型集成，提高了 RLHF 输出的对齐性能。

Jan, 2024

缓解奖励过度优化的可扩展集成方法

使用共享编码器但独立的线性头部，以减小存储和训练时间开销，解决了语言模型在强化学习中的过度优化问题。

Jun, 2024

通过轻量级不确定性估计的对抗策略优化克服奖励过度优化

引入对抗性策略优化 (AdvPO) 作为一种解决强化学习从人类反馈中的奖励过度优化问题的新方法，通过对奖励模型的不确定性进行量化，并通过分布鲁棒优化处理奖励模型的置信区间，从而增强性能。

Mar, 2024

通过约束强化学习高斯过程避免奖励模型过度优化

使用约束强化学习方法解决复合奖励模型中过度优化问题，并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。

Oct, 2023

基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习

强化学习来自人类反馈（RLHF）作为一种有前途的方法，用于与大型语言模型（LLMs）对齐。然而，RLHF 中一个显著的挑战是过度优化，即在超过某个阈值后，追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性，我们检视了现有 RLHF 方法中常用的 KL 正则化的弱点。为了增强奖励模型的不确定性量化能力，我们首先提出了多样化的低秩适应（LoRA）集成方法，通过最大化 LoRA 矩阵串联的核范数。然后，我们利用多样化奖励 LoRA 集合提供的奖励和不确定性来优化策略模型。基于两个真实人类偏好数据集的实验结果显示了多样化奖励 LoRA 集合在量化奖励不确定性方面的有效性。此外，UP-RLHF 中的不确定性正则化在减轻过度优化方面起到关键作用，从而提高整体性能。

Dec, 2023

LLM 对齐的贝叶斯奖励模型

为了确保大型语言模型的回复是有用且无毒的，通常我们会在人类偏好数据上对奖励模型进行微调。然后，我们选择具有高奖励的策略回复（最佳 n 采样），或者进一步优化策略以生成具有高奖励的回复（从人类反馈中进行强化学习）。然而，这个过程容易受到奖励过度优化或黑客攻击的影响，即所选择的回复之所以具有高奖励是因为奖励模型中存在错误，而不是真正的偏好。通过训练贝叶斯奖励模型，可以缓解这些问题，该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此，我们使用 Laplace-LoRA（Yang 等，2024 年）训练了贝叶斯奖励模型，并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。

Feb, 2024

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018

正则化的最佳 N 抽样以减轻语言模型对齐中的奖励欺骗

本研究提出了一种名为正则化最佳 - n (RBoN) 的策略，通过在响应选择中加入相似性项来减少奖励欺骗问题，并评估了其在 AlpacaFarm 数据集上的表现，发现它们在代理奖励模型与真实目标的相关性较低时优于最佳 - n (BoN)。

Apr, 2024

帮助还是群集？奖励模型集合缓解但无法消除奖励攻击

奖励模型、语言模型、奖励欺骗、奖励集合以及对齐是该研究论文的关键词，研究内容主要探讨了奖励模型在校准语言模型应用中的应用及存在的问题。

Dec, 2023

WPO: 加强 RLHF 的加权偏好优化

通过权重偏好优化方法（WPO），我们提出了一种新的策略来缓解离策略偏好优化中分布差异的问题，该方法通过重新加权优先级对预期对策激励进行了模拟，从而更好地逼近离策略数据。我们在指令遵循评估基准上验证了我们的方法，并在 Alpaca Eval 2 上比直接优先权优化（DPO）的表现提高了最高 5.6％，并且在 Llama-3-8B-Instruct 上基于 GPT-4-turbo 建立了显着的长度控制胜率为 48.6％，使其成为排行榜上最强的 8B 模型。

Jun, 2024