RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

Apr, 2023

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF: Rank Responses to Align Language Models with Human Feedback without tears

Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang...

TL;DRRRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Abstract

reinforcement learning from human feedback (RLHF) facilitates the alignment of large language models with human preferences, significantly

reinforcement learning human feedback language models sampling policies ranking loss

发现论文，激发创造

SuperHF：基于人类反馈的监督式迭代学习

基于大型语言模型对齐的一种新方法 SuperHF，旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Human Feedback 的优点，并通过替换 PPO 算法和引入 KL divergence 先验，提出了一种新的训练方法。实验结果表明，SuperHF 在训练目标、奖励优化和模型性能等方面表现优于基于 PPO 的 RLHF，具有竞争力的语言模型对齐技术。

Oct, 2023

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

大型语言模型中 RLHF 的秘密第一部分: PPO

大型语言模型对人工通用智能发展提出了一个使命，与人类对齐是其最重要的挑战，强化学习与人类反馈是支撑此追求的关键技术，并探讨了在 PPO 算法中影响策略代理训练的部件，并提出了 PPO-max 增强版本以提高策略模型的训练稳定性，总结了与 SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。

Jul, 2023

使用强化学习训练大型语言模型进行推理

从人类反馈中进行强化学习（RLHF）已成为将 LLM 输出与人类偏好对齐的一种主要方法。受 RLHF 成功的启发，我们研究了从反馈中学习（Expert Iteration，Proximal Policy Optimization（PPO），Return-Conditioned RL）对改善 LLM 推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为 LLM 提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态，包括有和没有经过监督微调（SFT）数据的情况开始研究。总的来说，我们发现所有算法的性能相当，大多数情况下 Expert Iteration 的性能最佳。令人惊讶的是，我们发现 Expert Iteration 的样本复杂度与 PPO 相似，需要最多约 $10^6$ 个样本从预训练检查点收敛。我们研究了为什么会这样，并得出结论，在 RL 训练期间，模型未能在 SFT 模型已经产生的解之外进行显着的探索。此外，我们讨论了 SFT 训练期间 maj@1 和 pass@96 度量性能之间的取舍，并且相反，RL 训练同时改善了两者。最后，我们讨论了我们的发现对 RLHF 和 LLM 微调中 RL 的未来角色的影响。

Mar, 2024

SAIL：大型语言模型的自我改进高效在线对齐

在线学习对于语言模型的对齐与优化是至关重要的，本文提出了一种基于双层优化的在线对齐方法，并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果，以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法，在开源数据集上显著提高了对齐性能，并具有极小的计算开销。

Jun, 2024

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

回归基础：重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化

通过改进 Proximal Policy Optimization，使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化，从而提高 AI 对人类反馈的 RLHF 的性能。

Feb, 2024

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

个性化人类反馈的个性化语言建模

发展个性化语言模型的方法，结合用户模型和语言（或奖励）模型的学习目标，对个性化语言模型进行强化学习，以更好地满足用户偏好。

Feb, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023