稳健的奖励模型训练缓解奖励操控
本文提出了一种称为DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的RLHF方法,DPO不仅表现更好,而且更加稳定和简单。
May, 2023
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
我们提出一种改进奖励模型质量的新方法,通过生成合成偏好数据,以使训练数据集增加基于策略且高质量的偏好对。经验证明,该方法可以改善任何奖励模型的性能,效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域,提供了合成偏好生成作为解决奖励模型建模挑战的方案。
Jan, 2024
通过强化学习将大型语言模型与人类偏好进行调整可能导致奖励欺骗,本文提出了一种解决方案,即使用加权平均奖励模型(WARM),通过对多个奖励模型进行微调并在权重空间中进行平均,以提高模型预测的质量和对齐度。
Jan, 2024
学习从偏好数据中获取奖励模型并将其用于更新语言模型是一种常见的调整语言模型与人的偏好一致性的方法。我们研究了在这种方法中出现的两个相关问题。首先,对于奖励模型的单调转换,是否有一种选择比其他选择更好?其次,我们经常希望将语言模型与多个属性对齐:我们应该如何组合多个奖励模型?通过使用与Bradley-Terry偏好模型学习的奖励(常见情况)的概率解释对齐过程,我们确定了一种自然的转换选择。这个派生的转换具有两个重要属性。首先,它强调改进表现较差的输出,而不是已经得分很高的输出。这减轻了欠拟合(其中某些提示没有改进)和奖励欺骗(模型学习利用奖励模型的误规范)。其次,它通过将求和与逻辑合取链接,实现了奖励的有原则的聚合:转换后的奖励的总和对应于在所有测量属性中输出是“好”的概率,我们可以准确刻画这种概率。使用RLHF对调整语言模型以既有帮助又无害的方式进行实验,与基准(未转换)方法相比有显著改进。
Feb, 2024
RewardBench是一个用于评估奖励模型的基准数据集和代码库,旨在增强对奖励模型科学理解的同时,深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示-赢-输三元组,我们对通过各种方法训练的奖励模型进行了评估,并针对拒绝、推理限制和指示跟随等方面的问题提出了许多发现,以促进对RLHF过程的更好理解。
Mar, 2024
通过建立一个具有可解释性的绝对评分多目标奖励模型(ArmoRM)和一个自动选择最合适奖励目标的门控网络,我们在大型语言模型对齐领域取得了与GPT-4评委相比的最先进表现,并接近更大的Nemotron-4 340B奖励模型的性能。
Jun, 2024
本研究探讨了直接偏好优化(DPO)所产生的隐式奖励模型DPORM与显式奖励模型(EXRM)在区分人类偏好方面的表现差异。尽管DPORM能够很好地拟合训练数据集,但结果表明其在验证数据集上泛化能力较差,尤其是在存在分布转变的情况下,这一发现强调了在迭代DPO方法中整合显式奖励模型的重要性。
Sep, 2024
该研究解决了传统奖励模型训练中对大量人工标注数据依赖的问题。提出的半监督奖励建模(SSRM)通过利用未标记数据,通过伪标注、高置信度示例选择和监督微调三个迭代步骤来增强模型训练。研究表明,SSRM在无需额外标注成本的情况下,能显著提升奖励模型的性能,尽可能减少对人工标注数据的依赖。
Sep, 2024
本研究解决了在大语言模型中应用人类反馈强化学习时,奖励模型可能因训练数据中的谬误相关性而导致的偏见问题,尤其是长度偏见。我们提出了一种后验奖励校准的方法,能够在不增加数据和训练的情况下,校正这些偏见,并通过局部加权回归方法进一步增强了这一方法的通用性和鲁棒性。实验结果显示,该方法在不同设置下均显著提升了奖励模型的表现和与人类偏好的对齐效果。
Sep, 2024