利用领域知识进行 RLHF 中的高效奖励建模：电子商务舆论总结的案例研究

Feb, 2024

利用领域知识进行 RLHF 中的高效奖励建模：电子商务舆论总结的案例研究

Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A Case-Study in E-Commerce Opinion Summarization

Swaroop Nath, Tejpalsingh Siledar, Sankara Sri Raghava Ravindra Muddu, Rupasai Rangaraju, Harshad Khadilkar...

TL;DR通过将领域知识融入奖励模型，减少人类偏好注释的规模，并在电子商务意见摘要任务中取得了显著的数据集规模减小幅度（仅为 940 个样本），并推动了最新技术的进步，从而提出了一种新颖的奖励模型技术，一个用于意见摘要的新数据集（PromptOpinSumm）和一个人类偏好数据集（OpinPref）。本文提出的方法为高效的人类反馈加强学习打开了新的机会，使其更适用于具有不同人类价值观的多样化应用。

Abstract

reinforcement learning from human feedback (RLHF) has become a dominating strategy in steering Language Models (LMs) towards human values/goals. The key to the strategy is employing a reward model ({$\varphi$}) w

reinforcement learning from human feedback reward model training methodology opinion summarization diverse applications

发现论文，激发创造

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

探索奖励差距对偏好模型性能的影响

从人类反馈中进行强化学习（RLHF）是一种广泛使用的语言模型训练框架。我们的研究发现，使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时，往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距，我们的研究引入了一种新的方法来估计偏好差异，而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明，将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性，还突出了它在实际应用中的有效性。

Apr, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

强化学习中偏好一致性的影响：摘要生成案例研究

从人类反馈中学习强化学习（RLHF）可以捕捉到文本生成质量的复杂和微妙的特性。本文探讨了偏好一致性对于文本摘要中 RLHF 的有效性的影响，通过展示人类偏好的采样范围包含一系列的标注者一致性，我们证明了（1）更高准确率的奖励模型和（2）所捕捉到的质量特征的改变。此外，当使用训练有一系列偏好一致性的奖励模型时，我们还展示了下游生成方面的改进。我们的贡献对于合成数据集的设计以及在比较性数据中考虑质量差异的重要性具有影响。

Nov, 2023

提高基于人类反馈的强化学习效果的高效奖励模型集成

采用奖励集成方法，我们研究如何改进 Reinforcement Learning from Human Feedback (RLHF) 模型对人类价值观的对齐效果，通过使用多个大型语言模型的奖励模型集成，提高了 RLHF 输出的对齐性能。

Jan, 2024

通过个性化和偏好聚合来自异构反馈的基于原则的 RLHF

利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。

Apr, 2024

个性化人类反馈的个性化语言建模

发展个性化语言模型的方法，结合用户模型和语言（或奖励）模型的学习目标，对个性化语言模型进行强化学习，以更好地满足用户偏好。

Feb, 2024

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

为奖励建模实现全面偏好数据收集

通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调，从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型，在推理阶段通过对偏好数据进行训练并输出标量奖励。然而，对于偏好数据的收集仍缺乏详细的调查。最近的研究表明，偏好数据是通过人工智能或人类收集的，其中在两两响应中选择和拒绝实例。我们质疑这个过程是否有效地过滤噪音并确保收集到足够的多样性数据。为了解决这些问题，我们首次提出了一个全面的偏好数据收集框架，将该过程分解为四个递增步骤：提示生成、响应生成、响应筛选和人工标注。这种结构化方法确保了高质量的偏好数据收集，同时减少对人力的依赖。我们根据不同阶段收集的数据进行了全面的实验，证明了所提出的数据收集方法的有效性。

Jun, 2024

通过多目标奖励建模和专家混合解释性偏好

通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络，我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现，并接近更大的 Nemotron-4 340B 奖励模型的性能。

Jun, 2024