使用对比奖励提升来自人类反馈的强化学习

Mar, 2024

使用对比奖励提升来自人类反馈的强化学习

Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards

Wei Shen, Xiaoying Zhang, Yuanshun Yao, Rui Zheng, Hongyi Guo...

TL;DR本文通过引入一种名为对比奖励的奖励惩罚项，改进了奖励模型的效果，在强化学习中对奖励的不确定性进行了压制，提高了鲁棒性，鼓励基准改进，根据任务难度进行校准，并减少了 PPO 中的方差。经实证表明，对比奖励可以极大提高从人类反馈中强化学习的效果，无论是通过 GPTs 还是人类评价，我们的方法始终优于强基准。

Abstract

reinforcement learning from human feedback (RLHF) is the mainstream paradigm used to align large language models (LLMs) with human preferences. Yet existing RLHF heavily relies on accurate and informative reward

reinforcement learning human feedback reward model contrastive rewards proximal policy optimization

发现论文，激发创造

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意 MDPs 环境。

Oct, 2023

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

探索奖励差距对偏好模型性能的影响

从人类反馈中进行强化学习（RLHF）是一种广泛使用的语言模型训练框架。我们的研究发现，使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时，往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距，我们的研究引入了一种新的方法来估计偏好差异，而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明，将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性，还突出了它在实际应用中的有效性。

Apr, 2024

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

提高基于人类反馈的强化学习效果的高效奖励模型集成

采用奖励集成方法，我们研究如何改进 Reinforcement Learning from Human Feedback (RLHF) 模型对人类价值观的对齐效果，通过使用多个大型语言模型的奖励模型集成，提高了 RLHF 输出的对齐性能。

Jan, 2024

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

强化学习中基于人类反馈的免费密集奖励

从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展，通过使用注意力权重重新分配奖励以高亮最重要的标记，它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。

Feb, 2024