来自损坏人类反馈的鲁棒强化学习

Jun, 2024

来自损坏人类反馈的鲁棒强化学习

Robust Reinforcement Learning from Corrupted Human Feedback

Alexander Bukharin, Ilgee Hong, Haoming Jiang, Qingru Zhang, Zixuan Zhang...

TL;DR通过稀疏异常点建模，我们提出了一种健壮的增强学习训练方法 $R^3M$，可以从人类反馈数据中一致地学习出潜在的奖励和异常点，并且在偏好数据扰动方面表现出强鲁棒性。

Abstract

reinforcement learning from human feedback (RLHF) provides a principled framework for aligning AI systems with human preference data. For various reasons, e.g., personal bias, context ambiguity, lack of training,

reinforcement learning human feedback robust rlhf reward learning preference optimization

发现论文，激发创造

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

强化学习与人类反馈的自适应偏好缩放

提出了一种新的自适应偏好损失函数，基于分布均衡优化，用于解决偏好强度不确定性问题，通过引入自适应缩放参数增加了对奖励函数的灵活性。实验证明，该方法不仅提升了策略性能，还使奖励函数的选择更加贴合策略优化，简化了超参数调整过程。

Jun, 2024

腐败鲁棒离线强化学习与人类反馈

我们设计了一种新颖的对抗性鲁棒性离线强化学习方法，以处理具有不同数据生成分布覆盖假设的数据污染情况，通过学习奖励模型和置信区间，然后在置信区间内学习一个悲观的最优策略，实现了离线强化学习中具有可证明的数据污染鲁棒性的 RLHF 方法。

Feb, 2024

MaxMin-RLHF: 大规模语言模型与多样化人类偏好的公平对齐

通过使用期望最大化算法，学习一种偏好分布的混合，以及基于社会选择理论中的平等原则提出一种最大最小对齐目标，提高代表多样化人类偏好的能力，并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。

Feb, 2024

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

通过个性化和偏好聚合来自异构反馈的基于原则的 RLHF

利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。

Apr, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

探索奖励差距对偏好模型性能的影响

从人类反馈中进行强化学习（RLHF）是一种广泛使用的语言模型训练框架。我们的研究发现，使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时，往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距，我们的研究引入了一种新的方法来估计偏好差异，而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明，将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性，还突出了它在实际应用中的有效性。

Apr, 2024

基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习

强化学习来自人类反馈（RLHF）作为一种有前途的方法，用于与大型语言模型（LLMs）对齐。然而，RLHF 中一个显著的挑战是过度优化，即在超过某个阈值后，追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性，我们检视了现有 RLHF 方法中常用的 KL 正则化的弱点。为了增强奖励模型的不确定性量化能力，我们首先提出了多样化的低秩适应（LoRA）集成方法，通过最大化 LoRA 矩阵串联的核范数。然后，我们利用多样化奖励 LoRA 集合提供的奖励和不确定性来优化策略模型。基于两个真实人类偏好数据集的实验结果显示了多样化奖励 LoRA 集合在量化奖励不确定性方面的有效性。此外，UP-RLHF 中的不确定性正则化在减轻过度优化方面起到关键作用，从而提高整体性能。

Dec, 2023