对齐大型语言模型的奖励转换与合并

Feb, 2024

对齐大型语言模型的奖励转换与合并

Transforming and Combining Rewards for Aligning Large Language Models

Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour...

TL;DR学习从偏好数据中获取奖励模型并将其用于更新语言模型是一种常见的调整语言模型与人的偏好一致性的方法。我们研究了在这种方法中出现的两个相关问题。首先，对于奖励模型的单调转换，是否有一种选择比其他选择更好？其次，我们经常希望将语言模型与多个属性对齐：我们应该如何组合多个奖励模型？通过使用与 Bradley-Terry 偏好模型学习的奖励（常见情况）的概率解释对齐过程，我们确定了一种自然的转换选择。这个派生的转换具有两个重要属性。首先，它强调改进表现较差的输出，而不是已经得分很高的输出。这减轻了欠拟合（其中某些提示没有改进）和奖励欺骗（模型学习利用奖励模型的误规范）。其次，它通过将求和与逻辑合取链接，实现了奖励的有原则的聚合：转换后的奖励的总和对应于在所有测量属性中输出是 “好” 的概率，我们可以准确刻画这种概率。使用 RLHF 对调整语言模型以既有帮助又无害的方式进行实验，与基准（未转换）方法相比有显著改进。

Abstract

A common approach for aligning language models to human preferences is to first learn a reward model from preference data, and then use this rewa

aligning language models reward model monotone transformation multiple reward models rlhf

发现论文，激发创造

重用奖励：零 - shot 跨语对齐的奖励模型转移

本研究探讨了一种简单的零 - shot 跨语言对齐方法，该方法基于偏好数据训练了一个奖励模型，在摘要生成和开放式对话生成任务中，经过全面的评估表明，这种方法在不同语言间的对齐中始终是成功的，包括人工评估：跨语言对齐模型在超过 70％的评估实例中优于未对齐模型。我们还发现，不同语言的奖励模型有时比相同语言的奖励模型具有更好的对齐效果，并且在没有语言特定数据的情况下进行有监督的微调也是对齐中的另一个重要组成部分。

Apr, 2024

LLM 对齐的贝叶斯奖励模型

为了确保大型语言模型的回复是有用且无毒的，通常我们会在人类偏好数据上对奖励模型进行微调。然后，我们选择具有高奖励的策略回复（最佳 n 采样），或者进一步优化策略以生成具有高奖励的回复（从人类反馈中进行强化学习）。然而，这个过程容易受到奖励过度优化或黑客攻击的影响，即所选择的回复之所以具有高奖励是因为奖励模型中存在错误，而不是真正的偏好。通过训练贝叶斯奖励模型，可以缓解这些问题，该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此，我们使用 Laplace-LoRA（Yang 等，2024 年）训练了贝叶斯奖励模型，并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。

Feb, 2024

通过约束强化学习高斯过程避免奖励模型过度优化

使用约束强化学习方法解决复合奖励模型中过度优化问题，并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。

Oct, 2023

对齐大型语言模型中奖励崩溃的研究

本研究旨在解决大型语言模型训练时出现的奖惩分布坍塌问题，提出了一种基于 Prompt-Aware 优化方案的解决方法，使得奖惩可以更好地区分不同的问句。

May, 2023

语言模型对齐的渐近性

在这篇论文中，我们提出了对最优 KL 约束 RL 解的闭式描述。我们证明了任何在 KL 散度和奖励之间实现可比的权衡的对齐方法必须在相对熵方面近似于最优 KL 约束 RL 解。我们还展示了最佳 N 项对齐与 KL 约束 RL 解在期望奖励上渐近等价，并得出结论这两个分布在 KL 散度上必须相近。

Apr, 2024

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

关于奖励模型、参数更新和上下文提示的变换

我们展示了三种常用的适应工具的互换性，分别为参数更新、奖励建模和上下文提示，形成了一个三角形框架，建立了六个转换方向，每个转换方向都有助于实现各种应用。我们的工作为现有研究提供了一个整体观点，并提出了潜在的研究方向。我们希望我们的工作成为未来 LLM 研究的有用路线图。

Jun, 2024

基于贝叶斯方法对齐语言模型与人类偏好

本文提出了一种新颖的方法，名为 d-PM，采用贝叶斯框架来考虑人类偏好之间的分歧分布，并利用 d-PM 模型的偏好分数使用对比学习策略来训练自然语言生成模型，实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。

Oct, 2023

MaxMin-RLHF: 大规模语言模型与多样化人类偏好的公平对齐

通过使用期望最大化算法，学习一种偏好分布的混合，以及基于社会选择理论中的平等原则提出一种最大最小对齐目标，提高代表多样化人类偏好的能力，并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。

Feb, 2024

将语言模型与人类偏好对齐

在本研究论文中，作者通过探索多种方法来与人类偏好对齐语言模型，包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等，从而展现了与强化学习反馈不同且互补的对齐技术的潜力。

Apr, 2024