应用示范引导强化学习来对抗 LLM 中的奖励过度优化

Apr, 2024

应用示范引导强化学习来对抗 LLM 中的奖励过度优化

Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning

Mathieu Rita, Florian Strub, Rahma Chaabouni, Paul Michel, Emmanuel Dupoux...

TL;DR利用人类示范和奖励模型重新校准奖励目标，通过最小化示范与语言模型的奖励之间的距离来避免对语言模型的奖励模型进行操纵和促进更自然、多样化的语言生成。

Abstract

While reinforcement learning (RL) has been proven essential for tuning large language models (LLMs), it can lead to reward over-optimization (ROO). Existing approaches address ROO by adding →

reinforcement learning reward over-optimization kl regularization reward calibration from demonstration language generation

发现论文，激发创造

通过约束强化学习高斯过程避免奖励模型过度优化

使用约束强化学习方法解决复合奖励模型中过度优化问题，并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。

Oct, 2023

演示调整的强化学习

利用专家演示来改善强化学习的样本效率，本研究量化了额外信息在降低样本复杂度方面的理论效果，并证明了 KL - 正则化方法在处理人类反馈强化学习中的优势。

Oct, 2023

基线分析奖励模型在分布转移下准确分析基础模型的能力

基于大型语言模型的基石模型，通过人类反馈的强化学习训练来捕捉期望的行为，并通过奖励模型对语言模型进行校准。然而，很少有研究评估这些奖励模型对分布偏移的鲁棒性，本研究评估了奖励模型性能与分布偏移的关系，并展示了由于异常输入导致的校准和准确率下降问题，并提出了在奖励模型中检测分布偏移的方法。

Nov, 2023

正则化隐藏状态实现学习面向通用化奖励模型的长期记忆模型

基于规则模型的泛化能力有限，而本研究提出了一种新颖的方法来增强奖励模型对分布偏移的泛化能力，并有效减轻强化学习反馈中的过优化问题。

Jun, 2024

基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习

强化学习来自人类反馈（RLHF）作为一种有前途的方法，用于与大型语言模型（LLMs）对齐。然而，RLHF 中一个显著的挑战是过度优化，即在超过某个阈值后，追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性，我们检视了现有 RLHF 方法中常用的 KL 正则化的弱点。为了增强奖励模型的不确定性量化能力，我们首先提出了多样化的低秩适应（LoRA）集成方法，通过最大化 LoRA 矩阵串联的核范数。然后，我们利用多样化奖励 LoRA 集合提供的奖励和不确定性来优化策略模型。基于两个真实人类偏好数据集的实验结果显示了多样化奖励 LoRA 集合在量化奖励不确定性方面的有效性。此外，UP-RLHF 中的不确定性正则化在减轻过度优化方面起到关键作用，从而提高整体性能。

Dec, 2023

DRLC：来自 LLM 批评者的强化学习与稠密奖励

通过引入批评语言模型的框架，利用密集奖励对强化学习中的稀疏奖励进行补偿，本研究在情感控制、语言模型去毒化和摘要生成等三个文本生成任务中验证了该方法的有效性，实验证明在训练过程中引入人工密集奖励相较于以整体奖励为基线的 PPO 算法能够稳定提升性能，并且在同一模型作为策略模型和批评模型的设定下，还能提高学习效率。

Jan, 2024

直接对齐算法中奖励模型过度优化的尺度规律

通过大量实证实验，本研究对于直接对齐算法的奖励过度优化或者篡改问题进行了形式化，并探讨了在目标、训练方式和模型规模等方面的相关影响。

Jun, 2024

通过自监督奖励回归学习低效演示

本文提出了一种新的方法通过子优示范来合成优化参数化的数据来训练理想的奖励函数，从而克服了旧方法在使用子优示范时的一些限制，实现了更好的性能。

Oct, 2020

奖励模型合集有助于缓解过度优化

使用集合基的保守优化目标，能够在强化学习中有效抑制频繁优化，提高性能。

Oct, 2023

基于软件导师的不完美演示强化学习

本文研究了强化学习的探索效率问题。提出了一种基于专家演示的强化学习方法，通过将专家指导视为对智能体政策探索的软约束，最终转化为一个约束优化问题，并采用局部线性搜索来高效解决。在广泛的基准测试中，我们的方法比其他方法获得了更好的结果。

Nov, 2019