语言模型对齐的渐近性

Apr, 2024

Asymptotics of Language Model Alignment

Joy Qiping Yang, Salman Salamatian, Ziteng Sun, Ananda Theertha Suresh, Ahmad Beirami

TL;DR在这篇论文中，我们提出了对最优 KL 约束 RL 解的闭式描述。我们证明了任何在 KL 散度和奖励之间实现可比的权衡的对齐方法必须在相对熵方面近似于最优 KL 约束 RL 解。我们还展示了最佳 N 项对齐与 KL 约束 RL 解在期望奖励上渐近等价，并得出结论这两个分布在 KL 散度上必须相近。

Abstract

Let $p$ denote a generative language model. Let $r$ denote a reward model that returns a scalar that captures the degree at which a draw from $p$ is preferred. The goal of language model alignment is to alter $p$

generative language model language model alignment kl-constrained reinforcement learning relative entropy best-of-n alignment

发现论文，激发创造

大规模语言模型中的策略对齐信息论保证

大型语言模型的策略对齐是指在约束的策略优化中，通过优化策略来最大化奖励，同时与参考策略在 KL 散度等 f - 散度方面保持接近。文中证明了当参考策略的奖励具有亚高斯尾部时，策略对齐的奖励提升与参考策略之间的 KL 散度成平方根关系；对于最优 n 策略，通过 Rényi 排序的表示以及数据处理不等式，可以获得任何 f - 散度下的 KL 上界。此外，如果对于策略对齐的尾部有额外的信息，可以通过 Rényi 散度获得更严格的奖励改进控制。最后，通过将上界从代理奖励转移到真实奖励，文中展示了由于代理奖励的过度估计和近似误差而导致的真实奖励改进的减少。

Jun, 2024

最佳 N 对齐策略的理论保证

用一种简单且有效的方法来对齐生成模型是最佳 n 策略，从基本策略中抽取 n 个样本并根据奖励函数进行排名，选择排名最高的样本，本文否定了文献中常用的分析表达式，证明了 KL 散度和最佳 n 策略以及基本策略之间不相等的关系，并探讨了这个上界在不同情况下的紧密程度，最后，提出一种新的 KL 散度估计器，并通过几个示例实证表明它提供了紧密的近似。

Jan, 2024

对齐语言模型中的基本权衡及其与采样适配器的关系

使用 Reinforcement Learning through Human Feedback (RLHF) 与 probability-quality relationship 方法，我们研究了语言模型对文字生成系统的影响，并提出了适应模型选择的采样适配器。

Jun, 2024

对齐大型语言模型的奖励转换与合并

学习从偏好数据中获取奖励模型并将其用于更新语言模型是一种常见的调整语言模型与人的偏好一致性的方法。我们研究了在这种方法中出现的两个相关问题。首先，对于奖励模型的单调转换，是否有一种选择比其他选择更好？其次，我们经常希望将语言模型与多个属性对齐：我们应该如何组合多个奖励模型？通过使用与 Bradley-Terry 偏好模型学习的奖励（常见情况）的概率解释对齐过程，我们确定了一种自然的转换选择。这个派生的转换具有两个重要属性。首先，它强调改进表现较差的输出，而不是已经得分很高的输出。这减轻了欠拟合（其中某些提示没有改进）和奖励欺骗（模型学习利用奖励模型的误规范）。其次，它通过将求和与逻辑合取链接，实现了奖励的有原则的聚合：转换后的奖励的总和对应于在所有测量属性中输出是 “好” 的概率，我们可以准确刻画这种概率。使用 RLHF 对调整语言模型以既有帮助又无害的方式进行实验，与基准（未转换）方法相比有显著改进。

Feb, 2024

LLM 对齐的贝叶斯奖励模型

为了确保大型语言模型的回复是有用且无毒的，通常我们会在人类偏好数据上对奖励模型进行微调。然后，我们选择具有高奖励的策略回复（最佳 n 采样），或者进一步优化策略以生成具有高奖励的回复（从人类反馈中进行强化学习）。然而，这个过程容易受到奖励过度优化或黑客攻击的影响，即所选择的回复之所以具有高奖励是因为奖励模型中存在错误，而不是真正的偏好。通过训练贝叶斯奖励模型，可以缓解这些问题，该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此，我们使用 Laplace-LoRA（Yang 等，2024 年）训练了贝叶斯奖励模型，并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。

Feb, 2024

基于先验约束的奖励模型训练方法用于对齐大型语言模型

基于先验约束的奖励模型训练方法（即 PCRM）用于调节优化幅度和控制分数间隔，从而通过评估其与人类偏好的排名相关性和在 RL 中对齐 LLMs 的有效性，全面评估 PCRM，实验证明 PCRM 通过有效限制奖励得分的缩放显著提高对齐性能，并可与直接偏好优化等任意基于排名的对齐方法进行一致改进。

Apr, 2024

直接对齐中的平均对数似然

为了更好地将大型语言模型与人类判断相一致，本研究通过从人类反馈中学习奖励模型，然后使用规则化强化学习进行优化。最近，引入了直接对齐方法，通过从偏好数据集中学习一个经过调优的模型，而无需计算代理奖励函数。然而，这些方法建立在包含对训练模型中（不）偏好完成的对数似然的对比损失上。然而，完成有各种长度，而对数似然不是长度不变的。为了调和这些方法，我们引入了一种使直接对齐长度不变的原则性方法。形式上，我们引入了一个新的平均算子，与给定基本 RL 问题的最佳策略算子结合使用。它在损失函数中对对数似然进行平均。通过实证研究这种平均化的效果，我们观察到生成文本的长度和其评分之间的权衡关系。

Jun, 2024

了解您的参考模型以实现良好对齐

通过引入 Trust Region DPO 方法，我们提出了一种新的对齐方法来改善模型的质量，通过在训练过程中更新参考策略，我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。

Apr, 2024

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

对齐大型语言模型中奖励崩溃的研究

本研究旨在解决大型语言模型训练时出现的奖惩分布坍塌问题，提出了一种基于 Prompt-Aware 优化方案的解决方法，使得奖惩可以更好地区分不同的问句。

May, 2023