基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习

Dec, 2023

基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习

Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles

Yuanzhao Zhai, Han Zhang, Yu Lei, Yue Yu, Kele Xu...

TL;DR强化学习来自人类反馈（RLHF）作为一种有前途的方法，用于与大型语言模型（LLMs）对齐。然而，RLHF 中一个显著的挑战是过度优化，即在超过某个阈值后，追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性，我们检视了现有 RLHF 方法中常用的 KL 正则化的弱点。为了增强奖励模型的不确定性量化能力，我们首先提出了多样化的低秩适应（LoRA）集成方法，通过最大化 LoRA 矩阵串联的核范数。然后，我们利用多样化奖励 LoRA 集合提供的奖励和不确定性来优化策略模型。基于两个真实人类偏好数据集的实验结果显示了多样化奖励 LoRA 集合在量化奖励不确定性方面的有效性。此外，UP-RLHF 中的不确定性正则化在减轻过度优化方面起到关键作用，从而提高整体性能。

Abstract

reinforcement learning from human feedback (RLHF) emerges as a promising paradigm for aligning large language models (LLMs). However, a notable challenge in RLHF is overoptimization, where beyond a certain thresh

reinforcement learning from human feedback overoptimization kl regularization uncertainty-penalized rlhf diverse reward lora ensembles

发现论文，激发创造

提高基于人类反馈的强化学习效果的高效奖励模型集成

采用奖励集成方法，我们研究如何改进 Reinforcement Learning from Human Feedback (RLHF) 模型对人类价值观的对齐效果，通过使用多个大型语言模型的奖励模型集成，提高了 RLHF 输出的对齐性能。

Jan, 2024

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

使用对比奖励提升来自人类反馈的强化学习

本文通过引入一种名为对比奖励的奖励惩罚项，改进了奖励模型的效果，在强化学习中对奖励的不确定性进行了压制，提高了鲁棒性，鼓励基准改进，根据任务难度进行校准，并减少了 PPO 中的方差。经实证表明，对比奖励可以极大提高从人类反馈中强化学习的效果，无论是通过 GPTs 还是人类评价，我们的方法始终优于强基准。

Mar, 2024

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

奖励模型合集有助于缓解过度优化

使用集合基的保守优化目标，能够在强化学习中有效抑制频繁优化，提高性能。

Oct, 2023

来自损坏人类反馈的鲁棒强化学习

通过稀疏异常点建模，我们提出了一种健壮的增强学习训练方法 $R^3M$，可以从人类反馈数据中一致地学习出潜在的奖励和异常点，并且在偏好数据扰动方面表现出强鲁棒性。

Jun, 2024

缓解奖励过度优化的可扩展集成方法

使用共享编码器但独立的线性头部，以减小存储和训练时间开销，解决了语言模型在强化学习中的过度优化问题。

Jun, 2024

基于标签敏感奖励的增强学习在自然语言理解中的应用

通过引入标签敏感的奖励机制，增强了大规模语言模型在自然语言理解任务中的性能，相比有监督微调模型和基于增强学习的模型，平均性能提升分别为 1.54% 和 0.69%。

May, 2024

利用 LoRA 整体进行 LLMs 的微调的不确定性量化

利用计算效率高的低秩适应集合，推导了对细调 LLM 的基于后验估计的确定性量化方法，并通过分析三个常见的多选数据集，量化和定性地得出了他们在不同目标领域中的知觉复杂性和模型效能，并假设了一种对于给定体系结构难以学习的数据领域的熵不确定性度量的信号。

Feb, 2024