文本分割与奖励学习以改善语言模型的强化学习人类反馈

Jan, 2025

文本分割与奖励学习以改善语言模型的强化学习人类反馈

Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Yueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun...

TL;DR本研究解决了以往强化学习人类反馈（RLHF）方法在处理语言模型生成过程中的序列性问题和稀疏奖励问题。我们提出了一种基于段落的奖励模型，赋予每个语义完整的文本段落奖励，并通过动态文本分割与标准序列偏好数据集的兼容性，实现更有效的奖励学习。研究结果表明，该方法在多个RLHF基准测试中表现出色，具有显著的实用价值。

Abstract

Reinforcement Learning from Human Feedback (RLHF) has been widely adopted to align Language Models (LMs) with human preference. Prior RLHF

发现论文，激发创造

强化学习是否适用于自然语言处理：自然语言策略优化的基准、基线和构件

本论文探讨了如何将预先训练的大型语言模型与人类偏好相对齐，提出了一个基于强化学习的模型优化库以及一套基于奖励函数的人类偏好的语言生成任务评估基准，并展示了所提出的自然语言策略优化算法相比于以往的策略梯度方法在具有更好的稳定性和性能。

Oct, 2022

神经机器翻译模型的对齐：训练和推理中的人工反馈

通过将来自人类反馈的强化学习应用于语言模型，本研究综合探索和比较不同技术，通过引入奖励模型提高机器翻译的质量，并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。

Nov, 2023

大型语言模型中RLHF的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

个性化人类反馈的个性化语言建模

发展个性化语言模型的方法，结合用户模型和语言（或奖励）模型的学习目标，对个性化语言模型进行强化学习，以更好地满足用户偏好。

Feb, 2024

采用RLHF推进翻译偏好建模：迈向经济高效的解决方案

利用加强学习与人类反馈（RLHF）来改善机器翻译的质量，通过优化奖励模型区分人工和机器翻译，实验结果表明RLHF可以有效提升翻译质量，并且这种改进对其他未经RLHF训练的翻译方向也有益处。

Feb, 2024

对基于单词奖励引导的文本生成进行批判性研究

大型语言模型（LLMs）可以通过人类喜好的对齐显著提高，即所谓的来自人类反馈的强化学习（RLHF）。然而，对于许多用户而言，微调LLM的成本是不可接受的。最近提出的逐标记奖励引导的文本生成（RGTG）方法可绕过LLM微调，它们使用在完整序列上训练的奖励模型来评分在标记级解码期间的部分序列，以引导生成高奖励序列。然而，这些方法迄今为止仅仅是启发式的动机和贫乏的分析。在这项工作中，我们展示了在全序列上训练的奖励模型与评分部分序列不兼容。为缓解这个问题，我们建议明确地在部分序列上训练Bradley-Terry奖励模型，并且在解码时从隐含的标记级策略中自回归采样。我们研究了这个奖励模型和隐含策略的性质。特别地，我们展示了这个策略与两个不同的RLHF策略之比成正比。我们展示了我们简单的方法优于之前的RGTG方法，并且在没有大规模LLM微调的情况下实现了与强大的线下基准的类似性能。

Jun, 2024

序列到序列奖励建模：通过语言反馈改善RLHF

本研究解决了大型语言模型（LLMs）与人类意图及价值观对齐的偏差问题，提出了一种新的序列到序列奖励建模方法。通过采用语言反馈而非标量反馈，该方法在无需额外注释的情况下改进了强化学习（RLHF）的效果，实验证明它提升了在多项自然语言处理任务中的性能。该创新方法显著减少了对话中的拒绝响应现象，并改善了文本摘要任务中的长响应偏倚。

Aug, 2024

MA-RLHF：通过宏操作从人类反馈进行强化学习

本研究解决了现有基于人类反馈的强化学习在长序列中的信用分配问题，导致学习效率低下。提出的MA-RLHF框架引入宏操作，显著减少了操作与奖励之间的时间距离，从而提升了学习效率和政策梯度的稳定性。本方法在文本摘要、对话生成等任务中表现优异，相较传统方法性能提升达30%，训练速度提高至1.7倍甚至2倍。

Oct, 2024

R3HF：奖励再分配以增强基于人类反馈的强化学习

本研究解决了基于人类反馈的强化学习（RLHF）中奖励分配单一且稀疏的问题，提出了一种名为R3HF的奖励再分配方法，能够实现更细粒度的标记级奖励分配。研究结果表明，该方法通过评估每个标记对奖励模型输出的具体贡献，提高了语言模型的性能，展示了其有效性及优越性。

Nov, 2024

T-REG: 基于令牌级奖励正则化的偏好优化

本研究针对传统RLHF方法中对单一稀疏奖励的依赖问题，提出了基于令牌级奖励正则化（T-REG）的新方法，利用自我生成的令牌级奖励来优化偏好分配。该方法通过对比提示使大语言模型能够更有效地将序列级奖励分布到各个令牌上，从而提高对齐性能，实验结果显示在相关基准测试中显著超越了基线方法。

Dec, 2024