正则化的最佳 N 抽样以减轻语言模型对齐中的奖励欺骗

Apr, 2024

正则化的最佳 N 抽样以减轻语言模型对齐中的奖励欺骗

Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment

Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe

TL;DR本研究提出了一种名为正则化最佳 - n (RBoN) 的策略，通过在响应选择中加入相似性项来减少奖励欺骗问题，并评估了其在 AlpacaFarm 数据集上的表现，发现它们在代理奖励模型与真实目标的相关性较低时优于最佳 - n (BoN)。

Abstract

Best-of-N (BoN) sampling with a reward model has been shown to be an effective strategy for aligning Large Language Models (LLMs) to human preferences at the time of decoding. BoN sampling is susceptible to a problem known as reward hacking. Because the reward model is an imperfect pro

best-of-n sampling reward hacking proximity regularization regularized best-of-n preference learning techniques

发现论文，激发创造

大语言模型的 BoNBoN 对齐及最佳抽取采样的甜度

该研究主要探讨了使用最佳 $n$ 个样本对大型语言模型进行人类偏好对齐的问题，并比较了最佳 $n$ 样本抽取法与训练 LLMs 以输出高期望奖励样本的对齐方法之间的关系，并提出了 BoNBoN Alignment 方法来实现 LLM 对最佳 $n$ 抽取法的模拟，实验证明 BoNBoN 对齐能够在最大程度上提高模型的选择性同时最小化对非目标方面的影响。

Jun, 2024

LLM 对齐的贝叶斯奖励模型

为了确保大型语言模型的回复是有用且无毒的，通常我们会在人类偏好数据上对奖励模型进行微调。然后，我们选择具有高奖励的策略回复（最佳 n 采样），或者进一步优化策略以生成具有高奖励的回复（从人类反馈中进行强化学习）。然而，这个过程容易受到奖励过度优化或黑客攻击的影响，即所选择的回复之所以具有高奖励是因为奖励模型中存在错误，而不是真正的偏好。通过训练贝叶斯奖励模型，可以缓解这些问题，该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此，我们使用 Laplace-LoRA（Yang 等，2024 年）训练了贝叶斯奖励模型，并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。

Feb, 2024

奖励模型合集有助于缓解过度优化

使用集合基的保守优化目标，能够在强化学习中有效抑制频繁优化，提高性能。

Oct, 2023

改进奖励建模的西至 N: 合成优先性生成

我们提出一种改进奖励模型质量的新方法，通过生成合成偏好数据，以使训练数据集增加基于策略且高质量的偏好对。经验证明，该方法可以改善任何奖励模型的性能，效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域，提供了合成偏好生成作为解决奖励模型建模挑战的方案。

Jan, 2024

基于贝叶斯方法对齐语言模型与人类偏好

本文提出了一种新颖的方法，名为 d-PM，采用贝叶斯框架来考虑人类偏好之间的分歧分布，并利用 d-PM 模型的偏好分数使用对比学习策略来训练自然语言生成模型，实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。

Oct, 2023

语言模型对齐的渐近性

在这篇论文中，我们提出了对最优 KL 约束 RL 解的闭式描述。我们证明了任何在 KL 散度和奖励之间实现可比的权衡的对齐方法必须在相对熵方面近似于最优 KL 约束 RL 解。我们还展示了最佳 N 项对齐与 KL 约束 RL 解在期望奖励上渐近等价，并得出结论这两个分布在 KL 散度上必须相近。

Apr, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

帮助还是群集？奖励模型集合缓解但无法消除奖励攻击

奖励模型、语言模型、奖励欺骗、奖励集合以及对齐是该研究论文的关键词，研究内容主要探讨了奖励模型在校准语言模型应用中的应用及存在的问题。

Dec, 2023

直接纳什优化：通过一般偏好教导语言模型自我改进

本文研究了使用强力预言机的偏好反馈来帮助模型迭代改进的训练后大语言模型。通过直接优化一般偏好关系，本文介绍了可证明且可扩展的 Direct Nash Optimization 算法，并在实验中证明其在性能上优于其他模型。

Apr, 2024

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024