对于多样化任务和模型规模的鲁棒学习的对称强化学习损失

May, 2024

对于多样化任务和模型规模的鲁棒学习的对称强化学习损失

Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales

Ju-Seung Byun, Andrew Perrault

TL;DR通过从有噪声数据中借鉴逆交叉熵（RCE）的方法将其适应于强化学习，定义了一种对称的 RL 损失，从而提高了 RL 训练的稳定性。在离散动作任务（Atari 游戏）和连续动作空间任务（MuJoCo 基准和 Box2D）中进行了实验，并通过改进 RLHF 任务的性能来验证对于大型语言模型使用 SPPO 的对称 RL 损失的好处，如 IMDB 正面情感和 TL;DR 摘要任务。

Abstract

reinforcement learning (RL) training is inherently unstable due to factors such as moving targets and high gradient variance. reinforcement learning from →

reinforcement learning training stability human feedback ai feedback symmetric rl loss

发现论文，激发创造

强化学习与人类反馈的自适应偏好缩放

提出了一种新的自适应偏好损失函数，基于分布均衡优化，用于解决偏好强度不确定性问题，通过引入自适应缩放参数增加了对奖励函数的灵活性。实验证明，该方法不仅提升了策略性能，还使奖励函数的选择更加贴合策略优化，简化了超参数调整过程。

Jun, 2024

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

从对称性学习：具有对称数据和语言指示的元强化学习

提出了一种双 MDP 元强化学习方法，该方法将语言指令和对称数据结合到元 RL 中，能够显著提高元强化学习的泛化能力和学习效率。

Sep, 2022

带有噪声标签的鲁棒学习的对称交叉熵

本文提出了一种名为 Symmetric cross entropy Learning 的深度神经网络学习方法，通过将 Cross Entropy 与 Reverse Cross Entropy 相结合，解决了在标签噪声存在下 CE 的过拟合与欠拟合问题，并在多个基准数据集和真实世界数据集实验中表现出优于其他现有方法的效果。

Aug, 2019

使用对比奖励提升来自人类反馈的强化学习

本文通过引入一种名为对比奖励的奖励惩罚项，改进了奖励模型的效果，在强化学习中对奖励的不确定性进行了压制，提高了鲁棒性，鼓励基准改进，根据任务难度进行校准，并减少了 PPO 中的方差。经实证表明，对比奖励可以极大提高从人类反馈中强化学习的效果，无论是通过 GPTs 还是人类评价，我们的方法始终优于强基准。

Mar, 2024

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

SuperHF：基于人类反馈的监督式迭代学习

基于大型语言模型对齐的一种新方法 SuperHF，旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Human Feedback 的优点，并通过替换 PPO 算法和引入 KL divergence 先验，提出了一种新的训练方法。实验结果表明，SuperHF 在训练目标、奖励优化和模型性能等方面表现优于基于 PPO 的 RLHF，具有竞争力的语言模型对齐技术。

Oct, 2023

Safe RLHF: 安全的强化学习从人类反馈中

利用 Safe Reinforcement Learning from Human Feedback（Safe RLHF）算法，通过训练单独的奖励和成本模型，实现了对大型语言模型（LLMs）在帮助性和无害性上进行人类价值调整，以最大化奖励函数并满足成本约束条件；通过实验证明与现有的值对齐算法相比，Safe RLHF 在减轻有害回应的能力和提高模型性能方面更为优越。

Oct, 2023

基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习

强化学习来自人类反馈（RLHF）作为一种有前途的方法，用于与大型语言模型（LLMs）对齐。然而，RLHF 中一个显著的挑战是过度优化，即在超过某个阈值后，追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性，我们检视了现有 RLHF 方法中常用的 KL 正则化的弱点。为了增强奖励模型的不确定性量化能力，我们首先提出了多样化的低秩适应（LoRA）集成方法，通过最大化 LoRA 矩阵串联的核范数。然后，我们利用多样化奖励 LoRA 集合提供的奖励和不确定性来优化策略模型。基于两个真实人类偏好数据集的实验结果显示了多样化奖励 LoRA 集合在量化奖励不确定性方面的有效性。此外，UP-RLHF 中的不确定性正则化在减轻过度优化方面起到关键作用，从而提高整体性能。

Dec, 2023

来自损坏人类反馈的鲁棒强化学习

通过稀疏异常点建模，我们提出了一种健壮的增强学习训练方法 $R^3M$，可以从人类反馈数据中一致地学习出潜在的奖励和异常点，并且在偏好数据扰动方面表现出强鲁棒性。

Jun, 2024