强化学习中偏好一致性的影响：摘要生成案例研究

Nov, 2023

强化学习中偏好一致性的影响：摘要生成案例研究

The Impact of Preference Agreement in Reinforcement Learning from Human Feedback: A Case Study in Summarization

Sian Gooding, Hassan Mansoor

TL;DR从人类反馈中学习强化学习（RLHF）可以捕捉到文本生成质量的复杂和微妙的特性。本文探讨了偏好一致性对于文本摘要中 RLHF 的有效性的影响，通过展示人类偏好的采样范围包含一系列的标注者一致性，我们证明了（1）更高准确率的奖励模型和（2）所捕捉到的质量特征的改变。此外，当使用训练有一系列偏好一致性的奖励模型时，我们还展示了下游生成方面的改进。我们的贡献对于合成数据集的设计以及在比较性数据中考虑质量差异的重要性具有影响。

Abstract

reinforcement learning from human feedback (RLHF) can be used to capture complex and nuanced properties of text generation quality. As a result, the task of →

reinforcement learning from human feedback text generation quality text summarization preference agreement reward models

发现论文，激发创造

通过个性化和偏好聚合来自异构反馈的基于原则的 RLHF

利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。

Apr, 2024

利用领域知识进行 RLHF 中的高效奖励建模：电子商务舆论总结的案例研究

通过将领域知识融入奖励模型，减少人类偏好注释的规模，并在电子商务意见摘要任务中取得了显著的数据集规模减小幅度（仅为 940 个样本），并推动了最新技术的进步，从而提出了一种新颖的奖励模型技术，一个用于意见摘要的新数据集（PromptOpinSumm）和一个人类偏好数据集（OpinPref）。本文提出的方法为高效的人类反馈加强学习打开了新的机会，使其更适用于具有不同人类价值观的多样化应用。

Feb, 2024

为奖励建模实现全面偏好数据收集

通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调，从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型，在推理阶段通过对偏好数据进行训练并输出标量奖励。然而，对于偏好数据的收集仍缺乏详细的调查。最近的研究表明，偏好数据是通过人工智能或人类收集的，其中在两两响应中选择和拒绝实例。我们质疑这个过程是否有效地过滤噪音并确保收集到足够的多样性数据。为了解决这些问题，我们首次提出了一个全面的偏好数据收集框架，将该过程分解为四个递增步骤：提示生成、响应生成、响应筛选和人工标注。这种结构化方法确保了高质量的偏好数据收集，同时减少对人力的依赖。我们根据不同阶段收集的数据进行了全面的实验，证明了所提出的数据收集方法的有效性。

Jun, 2024

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

多轮强化学习从人类偏好反馈中学习

本研究通过发展新的强化学习方法，解决了基于喜好反馈的多轮对话中规划和多轮互动问题，通过实验证明该算法在教育对话环境中超越了基线模型，同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能

May, 2024

充分利用之前的数据：交互式文本摘要的偏好反馈解决方案

本研究提出了一个新的交互式框架，可通过优化离线数据和一种新型奖励模型，以少量交互式反馈的方式训练摘要模型，提高 ROUGE 得分和采样效率。这个框架在摘要的活动、少量交互式学习和在线学习的场景下均具有优势。

Apr, 2022

RLAIF：以 AI 反馈为基础的强化学习扩展

强化学习从人的反馈中能够很好地对齐大型语言模型，但是获取高质量人类偏好标签是一个关键 bottleneck。我们进行了一项 RL from AI Feedback（RLAIF）与强化学习从人的反馈（RLHF）的头对头比较，发现它们具有相似的改进效果。在摘要任务中，人类评估员在约 70% 的案例中更喜欢 RLAIF 和 RLHF 生成的结果，而不是基准的监督微调模型。此外，当被要求对 RLAIF 和 RLHF 的摘要进行评分时，人类选择它们的比例相等。这些结果表明，RLAIF 可以取得与人类水平相当的性能，从而解决 RLHF 的可扩展性限制。

Sep, 2023

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

探索奖励差距对偏好模型性能的影响

从人类反馈中进行强化学习（RLHF）是一种广泛使用的语言模型训练框架。我们的研究发现，使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时，往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距，我们的研究引入了一种新的方法来估计偏好差异，而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明，将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性，还突出了它在实际应用中的有效性。

Apr, 2024