WARM: 关于加权平均奖励模型的好处

Jan, 2024

WARM: 关于加权平均奖励模型的好处

WARM: On the Benefits of Weight Averaged Reward Models

Alexandre Ramé, Nino Vieillard, Léonard Hussenot, Robert Dadashi, Geoffrey Cideron...

TL;DR通过强化学习将大型语言模型与人类偏好进行调整可能导致奖励欺骗，本文提出了一种解决方案，即使用加权平均奖励模型（WARM），通过对多个奖励模型进行微调并在权重空间中进行平均，以提高模型预测的质量和对齐度。

Abstract

Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs

large language models reinforcement learning reward hacking reward model summarization tasks

发现论文，激发创造

WARP: 关于加权平均奖励策略的好处

使用人类反馈进行强化学习的 WARP 方法，在保持预训练知识的同时优化奖励函数，经过迭代逐渐改进 KL - 奖励的权衡，提升了 GEMMA 策略的质量和对齐度。

Jun, 2024

通过约束强化学习高斯过程避免奖励模型过度优化

使用约束强化学习方法解决复合奖励模型中过度优化问题，并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。

Oct, 2023

通过多目标奖励建模和专家混合解释性偏好

通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络，我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现，并接近更大的 Nemotron-4 340B 奖励模型的性能。

Jun, 2024

理解早期权重平均对大型语言模型训练的有效性

通过运用检查点平均化方法来改进大型语言模型（LLMs）的质量，在不增加额外培训或推理成本的前提下，缩短训练时间并提高测试和零样本泛化能力。

Jun, 2023

直接对齐中的平均对数似然

为了更好地将大型语言模型与人类判断相一致，本研究通过从人类反馈中学习奖励模型，然后使用规则化强化学习进行优化。最近，引入了直接对齐方法，通过从偏好数据集中学习一个经过调优的模型，而无需计算代理奖励函数。然而，这些方法建立在包含对训练模型中（不）偏好完成的对数似然的对比损失上。然而，完成有各种长度，而对数似然不是长度不变的。为了调和这些方法，我们引入了一种使直接对齐长度不变的原则性方法。形式上，我们引入了一个新的平均算子，与给定基本 RL 问题的最佳策略算子结合使用。它在损失函数中对对数似然进行平均。通过实证研究这种平均化的效果，我们观察到生成文本的长度和其评分之间的权衡关系。

Jun, 2024

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

LLM 对齐的贝叶斯奖励模型

为了确保大型语言模型的回复是有用且无毒的，通常我们会在人类偏好数据上对奖励模型进行微调。然后，我们选择具有高奖励的策略回复（最佳 n 采样），或者进一步优化策略以生成具有高奖励的回复（从人类反馈中进行强化学习）。然而，这个过程容易受到奖励过度优化或黑客攻击的影响，即所选择的回复之所以具有高奖励是因为奖励模型中存在错误，而不是真正的偏好。通过训练贝叶斯奖励模型，可以缓解这些问题，该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此，我们使用 Laplace-LoRA（Yang 等，2024 年）训练了贝叶斯奖励模型，并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。

Feb, 2024

逐步强化

通过利用人类反馈的强化学习方法，本研究探索了两种奖励机制：基于结果监督的奖励模型和基于过程监督的奖励模型，以优化语言模型的逻辑推理能力，结果显示基于过程监督的方法可以提高简单数学推理的准确性，但意外地降低了复杂任务的表现，并且认为奖励聚合函数在模型性能中扮演着关键的作用，强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。

Nov, 2023

RAIN: 语言模型可以自动对齐，无需微调

通过整合自评和倒带机制，本研究发现未对齐的大型语言模型（LLMs）可以通过自我增强直接生成与人类偏好一致的回答。引入一种新的推理方法 Rewindable Auto-regressive INference（RAIN），允许预训练的 LLMs 评估自身生成，并利用评估结果对维护 AI 安全进行倒带回溯和前向生成，无需额外数据进行模型对齐，也无需训练、渐变计算或参数更新。实验证明 RAIN 的有效性，改善了 LLaMA 30B 模型的无害率，同时在对抗性攻击下降低了攻击成功率。

Sep, 2023

缓解奖励过度优化的可扩展集成方法

使用共享编码器但独立的线性头部，以减小存储和训练时间开销，解决了语言模型在强化学习中的过度优化问题。

Jun, 2024