WARP: 关于加权平均奖励策略的好处
通过强化学习将大型语言模型与人类偏好进行调整可能导致奖励欺骗,本文提出了一种解决方案,即使用加权平均奖励模型(WARM),通过对多个奖励模型进行微调并在权重空间中进行平均,以提高模型预测的质量和对齐度。
Jan, 2024
通过权重偏好优化方法(WPO),我们提出了一种新的策略来缓解离策略偏好优化中分布差异的问题,该方法通过重新加权优先级对预期对策激励进行了模拟,从而更好地逼近离策略数据。我们在指令遵循评估基准上验证了我们的方法,并在 Alpaca Eval 2 上比直接优先权优化(DPO)的表现提高了最高 5.6%,并且在 Llama-3-8B-Instruct 上基于 GPT-4-turbo 建立了显着的长度控制胜率为 48.6%,使其成为排行榜上最强的 8B 模型。
Jun, 2024
使用加权策略学习器(Weighted Policy Learner)算法,基于本地奖励的反馈,实现了多智能体强化学习(MARL)算法在二人二选手博弈中寻找 Nash Equilibrium 的能力。与之前的算法相比,WPL 不需要观察其他智能体动作和奖励,也不需要预先了解博弈本质和 NE 解,收敛表现优于现有的算法,并且在 100 个智能体交互中并行收敛。通过对 WPL 的动力学分析,可以更好地理解该算法的行为,分析 WPL 的收敛性比较困难,需要数值模拟求解动力学微分方程来验证其收敛性。
Jan, 2014
该论文旨在开发一种简单且可扩展的增强学习算法,使用标准的监督学习方法作为子程序。提出的 AWR 方法只需几行代码即可实现,能够适应连续和离散行动,其性能与许多最先进的 RL 算法相当,无需其他环境交互即可从纯静态数据集中获取更有效的策略。
Oct, 2019
本文提出了一种名为 LAPO(latent-variable advantage-weighted policy optimization)的方法,通过使用潜变量的策略来解决离线数据集分布偏移问题,取得了在多项任务中超越同类方法的显著性能提升。
Mar, 2022
我们研究了在时间受限环境下的分布式深度学习模型训练,提出了一种新算法,通过按照工作节点的梯度范数的倒数进行加权平均来推动工作节点接近计算得出的中心变量,以优先恢复优化景观中的平坦区域。我们开发了两种异步变体的算法,分别称为模型级梯度加权平均算法(MGRAWA)和层级梯度加权平均算法(LGRAWA),其不同之处在于加权方案是针对整个模型还是逐层应用。在理论方面,我们证明了该方法在凸性和非凸性设置下的收敛保证。然后,我们通过实验证明,我们的算法通过实现更快的收敛速度和恢复更好的质量和平坦的局部最优解而优于竞争方法。我们还进行了一项剔除研究,以分析该算法在更拥挤的分布式训练环境中的可扩展性。最后,我们报告说,与现有基线方法相比,我们的方法需要较少的通信频率和分布式更新。
Mar, 2024
本研究提出了一种基于相互信息最大化学习层次策略潜变量的 HRL 方法,用于优化连续控制任务中的强化学习性能,并介绍了优势加权重要性采样和确定性策略梯度方法,以实现选项策略选择和优化。实验结果表明,该方法可以学习多样化的选项并增强连续控制任务中强化学习的性能。
Jan, 2019
本研究提出了一种新算法 APA,利用估计的优势建立基于平方误差损失函数的算法进行优化,证明在使用单独的奖励模型作为评估器时,APA 明显优于 PPO,并且在控制模型初始策略与改进性能之间提供更稳定的形式控制,避免了模式崩溃、不稳定性和样本效率低等问题。
Jun, 2023