迭代纳什策略优化：通过无悔学习使 LLMs 与一般偏好相一致

Jun, 2024

迭代纳什策略优化：通过无悔学习使 LLMs 与一般偏好相一致

Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian...

TL;DR本文以游戏理论的角度，探讨了一种基于人类偏好与强化学习的算法，通过采用无懊悔学习，自我对抗的方式逼近纳什平衡策略，从而解决了大规模语言模型对人类反馈的规模性计算问题。实验证明该算法相较于之前的方法在不考虑个体响应的预期胜率的情况下能够取得更好的结果。

Abstract

reinforcement learning with human feedback (RLHF) has achieved great success in aligning large language models (LLMs) with human preferences. Prevalent RLHF approaches are reward-based, following the Bradley-Terr

reinforcement learning with human feedback language models game-theoretic perspective nash policy optimization preference dataset

发现论文，激发创造

纳什学习来自人类反馈

通过带有人类反馈的强化学习，我们引入一种新的方法来提升大型语言模型的性能，通过学习人类偏好并优化策略，实现与人类偏好的协调。

Dec, 2023

语言模型对齐的自我游戏偏好优化

提议了一种基于自对弈的语言模型对齐方法，称为 SPPO，通过迭代策略更新近似求解纳什均衡策略，可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然，同时在多个实验中表现优于其他基于对称成对损失的方法。

May, 2024

纳什学习从人类反馈下的一般 KL 正则化偏好的理论分析

这篇论文研究了基于人类反馈的强化学习方法，通过一种概率偏好模型来学习，实验了一种新的学习范式，KL 正则化 NLHF，旨在找到以初始模型为基础，持续生成优于竞争策略的响应的策略，并将其与传统的强化学习理论联系起来，验证了无奖励模型学习在一般偏好下的潜力。

Feb, 2024

SAIL：大型语言模型的自我改进高效在线对齐

在线学习对于语言模型的对齐与优化是至关重要的，本文提出了一种基于双层优化的在线对齐方法，并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果，以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法，在开源数据集上显著提高了对齐性能，并具有极小的计算开销。

Jun, 2024

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

回归基础：重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化

通过改进 Proximal Policy Optimization，使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化，从而提高 AI 对人类反馈的 RLHF 的性能。

Feb, 2024

大型语言模型的人类对齐通过在线偏好优化

确保语言模型输出与人类偏好的一致性对于保证用户的有用、安全和愉快的体验至关重要。本文中，我们展示了两种最近对齐方法：Identity Policy Optimisation (IPO) 和 Nash Mirror Descent (Nash-MD) 之间的等价性，并引入了一种名为 IPO-MD 的 IPO 推广算法，它利用了 Nash-MD 提出的正则化抽样方法。

Mar, 2024

大型语言模型中 RLHF 的秘密第一部分: PPO

大型语言模型对人工通用智能发展提出了一个使命，与人类对齐是其最重要的挑战，强化学习与人类反馈是支撑此追求的关键技术，并探讨了在 PPO 算法中影响策略代理训练的部件，并提出了 PPO-max 增强版本以提高策略模型的训练稳定性，总结了与 SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。

Jul, 2023

使用强化学习训练大型语言模型进行推理

从人类反馈中进行强化学习（RLHF）已成为将 LLM 输出与人类偏好对齐的一种主要方法。受 RLHF 成功的启发，我们研究了从反馈中学习（Expert Iteration，Proximal Policy Optimization（PPO），Return-Conditioned RL）对改善 LLM 推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为 LLM 提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态，包括有和没有经过监督微调（SFT）数据的情况开始研究。总的来说，我们发现所有算法的性能相当，大多数情况下 Expert Iteration 的性能最佳。令人惊讶的是，我们发现 Expert Iteration 的样本复杂度与 PPO 相似，需要最多约 $10^6$ 个样本从预训练检查点收敛。我们研究了为什么会这样，并得出结论，在 RL 训练期间，模型未能在 SFT 模型已经产生的解之外进行显着的探索。此外，我们讨论了 SFT 训练期间 maj@1 和 pass@96 度量性能之间的取舍，并且相反，RL 训练同时改善了两者。最后，我们讨论了我们的发现对 RLHF 和 LLM 微调中 RL 的未来角色的影响。

Mar, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024