后验奖励校准：长度偏见的案例研究

Sep, 2024

后验奖励校准：长度偏见的案例研究

Post-hoc Reward Calibration: A Case Study on Length Bias

Zeyu Huang, Zihan Qiu, Zili Wang, Edoardo M. Ponti, Ivan Titov

TL;DR本研究解决了在大语言模型中应用人类反馈强化学习时，奖励模型可能因训练数据中的谬误相关性而导致的偏见问题，尤其是长度偏见。我们提出了一种后验奖励校准的方法，能够在不增加数据和训练的情况下，校正这些偏见，并通过局部加权回归方法进一步增强了这一方法的通用性和鲁棒性。实验结果显示，该方法在不同设置下均显著提升了奖励模型的表现和与人类偏好的对齐效果。

Abstract

Reinforcement Learning from Human Feedback aligns the outputs of Large Language Models with human values and preferences. Central to this

发现论文，激发创造

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模(RM)方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的LLMs的依赖，这种方法的结果是，我们的模型ALMoST在对InstructGPT或人工注释指令训练的开放源代码模型中表现良好，我们的7B大小的模型在使用GPT-4作为评判员的A /B测试中表现优异，平均获胜率约为75％。

May, 2023

守口如瓶：从人类反馈中减轻强化学习的长度偏差

通过使用“Product-of-Experts（PoE）”技术，我们提出了一种创新的解决方案，将奖励建模与序列长度的影响相分离，从而使语言模型的性能得到提升。

Oct, 2023

基线分析奖励模型在分布转移下准确分析基础模型的能力

基于大型语言模型的基石模型，通过人类反馈的强化学习训练来捕捉期望的行为，并通过奖励模型对语言模型进行校准。然而，很少有研究评估这些奖励模型对分布偏移的鲁棒性，本研究评估了奖励模型性能与分布偏移的关系，并展示了由于异常输入导致的校准和准确率下降问题，并提出了在奖励模型中检测分布偏移的方法。

Nov, 2023

改进奖励建模的西至N:合成优先性生成

我们提出一种改进奖励模型质量的新方法，通过生成合成偏好数据，以使训练数据集增加基于策略且高质量的偏好对。经验证明，该方法可以改善任何奖励模型的性能，效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域，提供了合成偏好生成作为解决奖励模型建模挑战的方案。

Jan, 2024

对齐大型语言模型的奖励转换与合并

学习从偏好数据中获取奖励模型并将其用于更新语言模型是一种常见的调整语言模型与人的偏好一致性的方法。我们研究了在这种方法中出现的两个相关问题。首先，对于奖励模型的单调转换，是否有一种选择比其他选择更好？其次，我们经常希望将语言模型与多个属性对齐：我们应该如何组合多个奖励模型？通过使用与Bradley-Terry偏好模型学习的奖励（常见情况）的概率解释对齐过程，我们确定了一种自然的转换选择。这个派生的转换具有两个重要属性。首先，它强调改进表现较差的输出，而不是已经得分很高的输出。这减轻了欠拟合（其中某些提示没有改进）和奖励欺骗（模型学习利用奖励模型的误规范）。其次，它通过将求和与逻辑合取链接，实现了奖励的有原则的聚合：转换后的奖励的总和对应于在所有测量属性中输出是“好”的概率，我们可以准确刻画这种概率。使用RLHF对调整语言模型以既有帮助又无害的方式进行实验，与基准（未转换）方法相比有显著改进。

Feb, 2024

RewardBench：评估语言建模的奖励模型

RewardBench是一个用于评估奖励模型的基准数据集和代码库，旨在增强对奖励模型科学理解的同时，深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示-赢-输三元组，我们对通过各种方法训练的奖励模型进行了评估，并针对拒绝、推理限制和指示跟随等方面的问题提出了许多发现，以促进对RLHF过程的更好理解。

Mar, 2024

通过多目标奖励建模和专家混合解释性偏好

通过建立一个具有可解释性的绝对评分多目标奖励模型(ArmoRM)和一个自动选择最合适奖励目标的门控网络，我们在大型语言模型对齐领域取得了与GPT-4评委相比的最先进表现，并接近更大的Nemotron-4 340B奖励模型的性能。

Jun, 2024

序列到序列奖励建模：通过语言反馈改善RLHF

本研究解决了大型语言模型（LLMs）与人类意图及价值观对齐的偏差问题，提出了一种新的序列到序列奖励建模方法。通过采用语言反馈而非标量反馈，该方法在无需额外注释的情况下改进了强化学习（RLHF）的效果，实验证明它提升了在多项自然语言处理任务中的性能。该创新方法显著减少了对话中的拒绝响应现象，并改善了文本摘要任务中的长响应偏倚。

Aug, 2024

稳健的奖励模型训练缓解奖励操控

本研究针对传统奖励模型训练中无法有效区分上下文信号与无关伎俩的限制，提出了一种新的因果框架和数据增强技术，以独立于这些伎俩学习偏好。实验结果表明，新提出的稳健奖励模型显著提高了奖励模型的性能和对齐政策的有效性，显示出更好的效果。

Sep, 2024

房间里的大象：揭示奖励模型质量在对齐中的影响

本研究解决了大型语言模型对齐中奖励模型质量被忽视的问题，首次对广泛使用的偏好数据集HH-RLHF进行了质量调查，并创建了清洁版CHH-RLHF。通过严谨的基准测试和实验，揭示了奖励模型质量与对齐性能之间的显著关系，强调了在对齐研究中必须重视奖励模型的评估和开发更可靠的人类代理的重要性。

Sep, 2024