直接对齐算法中奖励模型过度优化的尺度规律

Jun, 2024

直接对齐算法中奖励模型过度优化的尺度规律

Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms

Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna...

TL;DR通过大量实证实验，本研究对于直接对齐算法的奖励过度优化或者篡改问题进行了形式化，并探讨了在目标、训练方式和模型规模等方面的相关影响。

Abstract

reinforcement learning from human feedback (RLHF) has been crucial to the recent success of large language models (LLMs), however, it is often a complex and brittle process. In the classical RLHF framework, a rew

reinforcement learning from human feedback large language models reward over-optimization direct alignment algorithms deterioration patterns

发现论文，激发创造

多目标奖励的 LLMs 多元用户偏好算术控制：方向偏好对齐

使用方向偏好对大规模语言模型进行细粒度控制，并结合多目标奖励建模，以实现对用户偏好的多样化表示，从而在保持竞争性性能的同时提供直观的 LLM 生成控制。

Feb, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

基线分析奖励模型在分布转移下准确分析基础模型的能力

基于大型语言模型的基石模型，通过人类反馈的强化学习训练来捕捉期望的行为，并通过奖励模型对语言模型进行校准。然而，很少有研究评估这些奖励模型对分布偏移的鲁棒性，本研究评估了奖励模型性能与分布偏移的关系，并展示了由于异常输入导致的校准和准确率下降问题，并提出了在奖励模型中检测分布偏移的方法。

Nov, 2023

使用直接偏好头进行语言模型的推理时间对齐

通过使用强化学习和直接偏好头的 fine-tuning 框架，将预训练语言模型与人类偏好信号相结合，实现对模型输出的控制，并在各项评估中超越传统的有监督和直接偏好优化方法。

May, 2024

强化学习与人类反馈的自适应偏好缩放

提出了一种新的自适应偏好损失函数，基于分布均衡优化，用于解决偏好强度不确定性问题，通过引入自适应缩放参数增加了对奖励函数的灵活性。实验证明，该方法不仅提升了策略性能，还使奖励函数的选择更加贴合策略优化，简化了超参数调整过程。

Jun, 2024

了解您的参考模型以实现良好对齐

通过引入 Trust Region DPO 方法，我们提出了一种新的对齐方法来改善模型的质量，通过在训练过程中更新参考策略，我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。

Apr, 2024

缓解奖励过度优化的可扩展集成方法

使用共享编码器但独立的线性头部，以减小存储和训练时间开销，解决了语言模型在强化学习中的过度优化问题。

Jun, 2024

基于策略和主动学习的经济高效的代理奖励模型构建

使用成本效益的代理奖励机制和主动学习，针对强化学习与人类反馈模型，最小化专家查询成本，并有效标记更多的偏好数据进行模型训练。

Jul, 2024

通过约束强化学习高斯过程避免奖励模型过度优化

使用约束强化学习方法解决复合奖励模型中过度优化问题，并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。

Oct, 2023

语言模型的解码时间对齐

对减少语言模型中的错误和偏见，与人类偏好进行对齐至关重要。我们提出解码时重新对齐（DeRa）的简单方法，用于探索和评估不同的规则化强度，从而在不重新训练的情况下实现对齐模型的规则化强度的控制，并提高超参数调优的效率。

Feb, 2024