无偏好的对齐学习与正则化相关回报

Feb, 2024

无偏好的对齐学习与正则化相关回报

Preference-free Alignment Learning with Regularized Relevance Reward

Sungdong Kim, Minjoon Seo

TL;DR学习人类偏好被认为是将大型语言模型与人类价值观保持一致的关键，然而，与普遍看法相反，我们的初步研究发现，在人类偏好数据集训练的奖励模型倾向于给长期离题的回复比给短期主题相关的回复更高的分数。受此观察的启发，我们探索了一种无偏好的方法，利用 “相关性” 作为关键目标以实现一致性。在我们的首次尝试中，我们发现仅使用一个可检索器获得的相关性分数作为强化学习的奖励时，容易受到奖励欺骗的影响，即对不希望的快捷方式过度优化。为了减轻这种影响，我们将有效的归纳偏差整合到传统相关性中以相互规范化，从而产生了一种奖励函数的混合：正则化相关性奖励 ($R^3$)。$R^3$ 通过提供稳健的奖励信号，在偏好基准测试中显著提高了性能。值得注意的是，$R^3$ 无需任何人类偏好数据集（即无偏好），在提高人类偏好方面胜过开源奖励模型。我们的分析表明，$R^3$ 在提高人类偏好的同时，最大程度地减少了其副作用。最后，我们展示了 $R^3$ 的一般化能力，它在各种主干和规模的针对指令的模型中持续提高，而无需额外的数据集成本。我们的代码可在 https URL 上找到。

Abstract

Learning from human preference has been considered key to aligning Large Language Models (LLMs) with human values. However, contrary to popular belief, our preliminary study reveals that reward models trained on

large language models human preference relevance reward models regularized relevance reward

发现论文，激发创造

来自损坏人类反馈的鲁棒强化学习

通过稀疏异常点建模，我们提出了一种健壮的增强学习训练方法 $R^3M$，可以从人类反馈数据中一致地学习出潜在的奖励和异常点，并且在偏好数据扰动方面表现出强鲁棒性。

Jun, 2024

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

LIRE：面向偏好对齐的逐项奖励增强

提出了一种基于梯度的奖励优化方法 Listwise Reward Enhancement for Preference Alignment (LIRE)，将多个回复的离线奖励融入到简化的列表框架中，从而在训练过程中不需要在线采样。通过自我增强算法，LIRE 在对话和摘要任务的多个基准测试中持续优于现有方法，并且在使用代理奖励模型和人工标注者进行评估时具有良好的迁移性。

May, 2024

每个人都应该得到奖励：学习定制化的人类偏好

通过采集特定领域的偏好数据集，提出了一个三阶段的定制化奖励模型（RM）学习方案，旨在探索定制化偏好学习并在保留通用偏好能力的同时改进交互质量和数据效率。

Sep, 2023

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

长文问答中的公理化偏好建模

通过发展一个公理框架来指导奖励模型与人的偏好一致性，研究人员训练了一个仅含有 2.2 亿参数的优先级模型，并发现使用少量的公理信号可以帮助小模型在偏好评分方面优于 GPT-4。

Dec, 2023

基于贝叶斯方法对齐语言模型与人类偏好

本文提出了一种新颖的方法，名为 d-PM，采用贝叶斯框架来考虑人类偏好之间的分歧分布，并利用 d-PM 模型的偏好分数使用对比学习策略来训练自然语言生成模型，实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。

Oct, 2023

探索奖励差距对偏好模型性能的影响

从人类反馈中进行强化学习（RLHF）是一种广泛使用的语言模型训练框架。我们的研究发现，使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时，往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距，我们的研究引入了一种新的方法来估计偏好差异，而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明，将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性，还突出了它在实际应用中的有效性。

Apr, 2024

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024