WARP: 关于加权平均奖励策略的好处

Jun, 2024

WARP: 关于加权平均奖励策略的好处

WARP: On the Benefits of Weight Averaged Rewarded Policies

Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot...

TL;DR使用人类反馈进行强化学习的 WARP 方法，在保持预训练知识的同时优化奖励函数，经过迭代逐渐改进 KL - 奖励的权衡，提升了 GEMMA 策略的质量和对齐度。

Abstract

reinforcement learning from human feedback (RLHF) aligns large language models (LLMs) by encouraging their generations to have high rewards, using a reward model trained on human preferences. To prevent the forge

reinforcement learning human feedback alignment strategy kl regularization warp

发现论文，激发创造

WARM: 关于加权平均奖励模型的好处

通过强化学习将大型语言模型与人类偏好进行调整可能导致奖励欺骗，本文提出了一种解决方案，即使用加权平均奖励模型（WARM），通过对多个奖励模型进行微调并在权重空间中进行平均，以提高模型预测的质量和对齐度。

Jan, 2024

WPO: 加强 RLHF 的加权偏好优化

通过权重偏好优化方法（WPO），我们提出了一种新的策略来缓解离策略偏好优化中分布差异的问题，该方法通过重新加权优先级对预期对策激励进行了模拟，从而更好地逼近离策略数据。我们在指令遵循评估基准上验证了我们的方法，并在 Alpaca Eval 2 上比直接优先权优化（DPO）的表现提高了最高 5.6％，并且在 Llama-3-8B-Instruct 上基于 GPT-4-turbo 建立了显着的长度控制胜率为 48.6％，使其成为排行榜上最强的 8B 模型。

Jun, 2024

奖励汤：通过插值微调多样化奖励权重实现帕累托最优对齐

本研究提出使用多策略策略来包容多样奖励，应用于文本到文本，文本到图像和控制任务中，以增强深度模型的对与多样世界的交互的对准。

Jun, 2023

具有非线性动力学的多智能体强化学习算法

使用加权策略学习器（Weighted Policy Learner）算法，基于本地奖励的反馈，实现了多智能体强化学习（MARL）算法在二人二选手博弈中寻找 Nash Equilibrium 的能力。与之前的算法相比，WPL 不需要观察其他智能体动作和奖励，也不需要预先了解博弈本质和 NE 解，收敛表现优于现有的算法，并且在 100 个智能体交互中并行收敛。通过对 WPL 的动力学分析，可以更好地理解该算法的行为，分析 WPL 的收敛性比较困难，需要数值模拟求解动力学微分方程来验证其收敛性。

Jan, 2014

优势加权回归：简单且可扩展的离线策略强化学习

该论文旨在开发一种简单且可扩展的增强学习算法，使用标准的监督学习方法作为子程序。提出的 AWR 方法只需几行代码即可实现，能够适应连续和离散行动，其性能与许多最先进的 RL 算法相当，无需其他环境交互即可从纯静态数据集中获取更有效的策略。

Oct, 2019

离线强化学习中的潜变量优势加权策略优化

本文提出了一种名为 LAPO（latent-variable advantage-weighted policy optimization）的方法，通过使用潜变量的策略来解决离线数据集分布偏移问题，取得了在多项任务中超越同类方法的显著性能提升。

Mar, 2022

GRAWA：基于梯度的加权平均方法用于分布式训练深度学习模型

我们研究了在时间受限环境下的分布式深度学习模型训练，提出了一种新算法，通过按照工作节点的梯度范数的倒数进行加权平均来推动工作节点接近计算得出的中心变量，以优先恢复优化景观中的平坦区域。我们开发了两种异步变体的算法，分别称为模型级梯度加权平均算法（MGRAWA）和层级梯度加权平均算法（LGRAWA），其不同之处在于加权方案是针对整个模型还是逐层应用。在理论方面，我们证明了该方法在凸性和非凸性设置下的收敛保证。然后，我们通过实验证明，我们的算法通过实现更快的收敛速度和恢复更好的质量和平坦的局部最优解而优于竞争方法。我们还进行了一项剔除研究，以分析该算法在更拥挤的分布式训练环境中的可扩展性。最后，我们报告说，与现有基线方法相比，我们的方法需要较少的通信频率和分布式更新。

Mar, 2024

成对近邻策略优化：利用相对反馈进行 LLM 对齐

通过相对反馈，本文介绍了一种更简单而有效的方法，以相对反馈将大型语言模型对齐到人类的偏好。

Sep, 2023

基于优势加权信息最大化的分级强化学习

本研究提出了一种基于相互信息最大化学习层次策略潜变量的 HRL 方法，用于优化连续控制任务中的强化学习性能，并介绍了优势加权重要性采样和确定性策略梯度方法，以实现选项策略选择和优化。实验结果表明，该方法可以学习多样化的选项并增强连续控制任务中强化学习的性能。

Jan, 2019

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023