基于先验约束的奖励模型训练方法用于对齐大型语言模型

Apr, 2024

基于先验约束的奖励模型训练方法用于对齐大型语言模型

Prior Constraints-based Reward Model Training for Aligning Large Language Models

Hang Zhou, Chenglong Wang, Yimin Hu, Tong Xiao, Chunliang Zhang...

TL;DR基于先验约束的奖励模型训练方法（即 PCRM）用于调节优化幅度和控制分数间隔，从而通过评估其与人类偏好的排名相关性和在 RL 中对齐 LLMs 的有效性，全面评估 PCRM，实验证明 PCRM 通过有效限制奖励得分的缩放显著提高对齐性能，并可与直接偏好优化等任意基于排名的对齐方法进行一致改进。

Abstract

reinforcement learning with human feedback for aligning large language models (LLMs) trains a →

reinforcement learning human feedback language models reward model alignment

发现论文，激发创造

通过分布偏好奖励建模对齐群体反馈

分布偏好奖励模型（DPRM）是一个简单而有效的框架，通过将最大语言模型（LLM）与多样化的人类偏好对齐，以提高对人群偏好的代表性。

Feb, 2024

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

ALaRM: 通过层次化奖励模型对齐语言模型

我们介绍了 ALaRM，这是第一个模拟强化学习中的分层奖励的框架，旨在增强大型语言模型与人类偏好的一致性。该框架通过将整体奖励与特定方面的奖励相结合，解决了当前对齐方法的局限性，从而更准确、一致地引导语言模型朝着期望的结果发展，特别是在复杂和开放的文本生成任务中。通过采用基于一致性过滤和组合多个奖励的方法，该框架提供了一种可靠的机制来改善模型的对齐。我们通过在长篇问答和机器翻译任务中应用 gpt-3.5-turbo 进行成对比较，并证明了与现有基线方法相比的改进效果。我们的工作强调了分层奖励建模在改善语言模型训练过程中对人类偏好一致性的有效性。我们在此 URL 上发布了我们的代码。

Mar, 2024

LLM 对齐的贝叶斯奖励模型

为了确保大型语言模型的回复是有用且无毒的，通常我们会在人类偏好数据上对奖励模型进行微调。然后，我们选择具有高奖励的策略回复（最佳 n 采样），或者进一步优化策略以生成具有高奖励的回复（从人类反馈中进行强化学习）。然而，这个过程容易受到奖励过度优化或黑客攻击的影响，即所选择的回复之所以具有高奖励是因为奖励模型中存在错误，而不是真正的偏好。通过训练贝叶斯奖励模型，可以缓解这些问题，该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此，我们使用 Laplace-LoRA（Yang 等，2024 年）训练了贝叶斯奖励模型，并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。

Feb, 2024

不要忘记奖励值：基于值的校准实现语言模型的对齐

通过提出一种新的基于价值的校准方法，本文研究了强化学习从人类反馈中提高大型语言模型生成质量的问题，并通过实验结果证明该方法在不同环境中具有出色的泛化能力、稳定性和鲁棒性。

Feb, 2024

通过自对准使用大型语言模型学习机器人技能的奖励

在没有人类干预的情况下，我们提出了一种通过使用大型语言模型（LLM）来学习奖励的方法，该方法通过迭代的自我对齐过程，最小化 LLM 和学习奖励函数之间的排名不一致性，从而在训练效果和效率方面实现了一致的改善，并且相比于基于突变的方法消耗了更少的 GPT 令牌。

May, 2024

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

通过约束强化学习高斯过程避免奖励模型过度优化

使用约束强化学习方法解决复合奖励模型中过度优化问题，并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。

Oct, 2023

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023