探索奖励差距对偏好模型性能的影响

Apr, 2024

探索奖励差距对偏好模型性能的影响

Towards Understanding the Influence of Reward Margin on Preference Model Performance

Bowen Qin, Duanyu Feng, Xi Yang

TL;DR从人类反馈中进行强化学习（RLHF）是一种广泛使用的语言模型训练框架。我们的研究发现，使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时，往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距，我们的研究引入了一种新的方法来估计偏好差异，而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明，将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性，还突出了它在实际应用中的有效性。

Abstract

reinforcement learning from human feedback (RLHF) is a widely used framework for the training of language models. However, the process of using RLHF to develop a language model that is well-aligned presents chall

reinforcement learning from human feedback language models reward model preference differences margin values

发现论文，激发创造

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

个性化人类反馈的个性化语言建模

发展个性化语言模型的方法，结合用户模型和语言（或奖励）模型的学习目标，对个性化语言模型进行强化学习，以更好地满足用户偏好。

Feb, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

使用对比奖励提升来自人类反馈的强化学习

本文通过引入一种名为对比奖励的奖励惩罚项，改进了奖励模型的效果，在强化学习中对奖励的不确定性进行了压制，提高了鲁棒性，鼓励基准改进，根据任务难度进行校准，并减少了 PPO 中的方差。经实证表明，对比奖励可以极大提高从人类反馈中强化学习的效果，无论是通过 GPTs 还是人类评价，我们的方法始终优于强基准。

Mar, 2024

采用 RLHF 推进翻译偏好建模：迈向经济高效的解决方案

利用加强学习与人类反馈（RLHF）来改善机器翻译的质量，通过优化奖励模型区分人工和机器翻译，实验结果表明 RLHF 可以有效提升翻译质量，并且这种改进对其他未经 RLHF 训练的翻译方向也有益处。

Feb, 2024

利用领域知识进行 RLHF 中的高效奖励建模：电子商务舆论总结的案例研究

通过将领域知识融入奖励模型，减少人类偏好注释的规模，并在电子商务意见摘要任务中取得了显著的数据集规模减小幅度（仅为 940 个样本），并推动了最新技术的进步，从而提出了一种新颖的奖励模型技术，一个用于意见摘要的新数据集（PromptOpinSumm）和一个人类偏好数据集（OpinPref）。本文提出的方法为高效的人类反馈加强学习打开了新的机会，使其更适用于具有不同人类价值观的多样化应用。

Feb, 2024

提高基于人类反馈的强化学习效果的高效奖励模型集成

采用奖励集成方法，我们研究如何改进 Reinforcement Learning from Human Feedback (RLHF) 模型对人类价值观的对齐效果，通过使用多个大型语言模型的奖励模型集成，提高了 RLHF 输出的对齐性能。

Jan, 2024

MaxMin-RLHF: 大规模语言模型与多样化人类偏好的公平对齐

通过使用期望最大化算法，学习一种偏好分布的混合，以及基于社会选择理论中的平等原则提出一种最大最小对齐目标，提高代表多样化人类偏好的能力，并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。

Feb, 2024

对齐上界：从人类反馈中的强化学习目标不匹配

用来自人类反馈的强化学习技术已经成为一个强大的工具，使得大型语言模型在复杂环境中更容易引导，更具能力。然而，由于奖励模型、策略模型和评估模型之间的不一致性，存在目标不匹配的问题。本文探讨了这个问题的原因，并回顾了相关的模型学习和强化学习文献。同时，讨论了激励解匹配之后的解决方案，以促进进一步的研究，从而使未来的语言模型更加准确地遵循用户的指令，提供更安全和有用的服务。

Oct, 2023