序列到序列奖励建模：通过语言反馈改善RLHF

Aug, 2024

序列到序列奖励建模：通过语言反馈改善RLHF

Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback

Jiayi Zhou, Jiaming Ji, Juntao Dai, Yaodong Yang

TL;DR本研究解决了大型语言模型（LLMs）与人类意图及价值观对齐的偏差问题，提出了一种新的序列到序列奖励建模方法。通过采用语言反馈而非标量反馈，该方法在无需额外注释的情况下改进了强化学习（RLHF）的效果，实验证明它提升了在多项自然语言处理任务中的性能。该创新方法显著减少了对话中的拒绝响应现象，并改善了文本摘要任务中的长响应偏倚。

Abstract

Aligning the behavior of Large Language Models (LLMs) with human intentions and values remains a critical challenge. Reinforcement Learning from

发现论文，激发创造

SLiC-HF: 序列似然校准与人类反馈

本文介绍了如何使用Sequence Likelihood Calibration（SLiC）从人类反馈中有效地学习，并证明了这种方法在人类评估实验中可以极大地提高监督微调基线和PPO RLHF的竞争力。同时，与过去的工作相比，使用SLiC-HF实现简单、易于调节且具有更高的计算效率。

May, 2023

SuperHF：基于人类反馈的监督式迭代学习

基于大型语言模型对齐的一种新方法SuperHF，旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF结合了Supervised Fine-Tuning和Reinforcement Learning from Human Feedback的优点，并通过替换PPO算法和引入KL divergence先验，提出了一种新的训练方法。实验结果表明，SuperHF在训练目标、奖励优化和模型性能等方面表现优于基于PPO的RLHF，具有竞争力的语言模型对齐技术。

Oct, 2023

大型语言模型中RLHF的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

改进奖励建模的西至N:合成优先性生成

我们提出一种改进奖励模型质量的新方法，通过生成合成偏好数据，以使训练数据集增加基于策略且高质量的偏好对。经验证明，该方法可以改善任何奖励模型的性能，效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域，提供了合成偏好生成作为解决奖励模型建模挑战的方案。

Jan, 2024

RLHF 揭示：对于LLMs的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对RLHF的挑战进行了描述，为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

数据有效的强化学习高阶函数的典型奖励网络

利用Proto-RM框架来增强在受限制的人类反馈条件下的奖励模型和优化语言模型的微调，显著提高了适应性和准确性，并且在数据受限场景中比传统方法要求更少的数据。

Jun, 2024

MA-RLHF：通过宏操作从人类反馈进行强化学习

本研究解决了现有基于人类反馈的强化学习在长序列中的信用分配问题，导致学习效率低下。提出的MA-RLHF框架引入宏操作，显著减少了操作与奖励之间的时间距离，从而提升了学习效率和政策梯度的稳定性。本方法在文本摘要、对话生成等任务中表现优异，相较传统方法性能提升达30%，训练速度提高至1.7倍甚至2倍。

Oct, 2024

如何评估强化学习人类反馈的奖励模型

本文针对现有奖励模型评估方法的高成本问题，提出了一种新的基准，建立了预测下游大型语言模型（LLM）性能的模型。通过在代理任务上评估奖励模型，发现多个指标与RLHF（强化学习人类反馈）结果高度相关，并最终开发出“偏好代理评估”（PPE），为后续研究提供了基础。

Oct, 2024

如何评估用于人类反馈强化学习的奖励模型

本研究针对现有奖励模型评估缺乏有效标准的问题，提出了一种新基准，以量化奖励模型通过人类反馈强化学习（RLHF）产生强大语言模型的能力。通过构建对下游LLM性能的预测模型，利用代理任务评估奖励模型，从而实现了成本效益高的评估方法，最终形成了首个与实际人类偏好表现明确相关的奖励模型基准，具有重要的应用潜力。

Oct, 2024

R3HF：奖励再分配以增强基于人类反馈的强化学习

本研究解决了基于人类反馈的强化学习（RLHF）中奖励分配单一且稀疏的问题，提出了一种名为R3HF的奖励再分配方法，能够实现更细粒度的标记级奖励分配。研究结果表明，该方法通过评估每个标记对奖励模型输出的具体贡献，提高了语言模型的性能，展示了其有效性及优越性。

Nov, 2024