房间里的大象:揭示奖励模型质量在对齐中的影响
学习从偏好数据中获取奖励模型并将其用于更新语言模型是一种常见的调整语言模型与人的偏好一致性的方法。我们研究了在这种方法中出现的两个相关问题。首先,对于奖励模型的单调转换,是否有一种选择比其他选择更好?其次,我们经常希望将语言模型与多个属性对齐:我们应该如何组合多个奖励模型?通过使用与Bradley-Terry偏好模型学习的奖励(常见情况)的概率解释对齐过程,我们确定了一种自然的转换选择。这个派生的转换具有两个重要属性。首先,它强调改进表现较差的输出,而不是已经得分很高的输出。这减轻了欠拟合(其中某些提示没有改进)和奖励欺骗(模型学习利用奖励模型的误规范)。其次,它通过将求和与逻辑合取链接,实现了奖励的有原则的聚合:转换后的奖励的总和对应于在所有测量属性中输出是“好”的概率,我们可以准确刻画这种概率。使用RLHF对调整语言模型以既有帮助又无害的方式进行实验,与基准(未转换)方法相比有显著改进。
Feb, 2024
通过集成对齐到解码过程中,使用奖励信号调整模型的概率预测,ARGS在不需要昂贵强化学习训练的情况下生成与人类偏好相一致的文本,提供了一种有前途且灵活的解决方案,以对齐语言模型。
Jan, 2024
RewardBench是一个用于评估奖励模型的基准数据集和代码库,旨在增强对奖励模型科学理解的同时,深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示-赢-输三元组,我们对通过各种方法训练的奖励模型进行了评估,并针对拒绝、推理限制和指示跟随等方面的问题提出了许多发现,以促进对RLHF过程的更好理解。
Mar, 2024
通过理论分析学习动态,我们提供了对人类偏好对齐的理论观察,揭示了优化算法可能优先考虑具有更高偏好区分度的行为,并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。
Mar, 2024
本研究探讨了一种简单的零-shot跨语言对齐方法,该方法基于偏好数据训练了一个奖励模型,在摘要生成和开放式对话生成任务中,经过全面的评估表明,这种方法在不同语言间的对齐中始终是成功的,包括人工评估:跨语言对齐模型在超过70%的评估实例中优于未对齐模型。我们还发现,不同语言的奖励模型有时比相同语言的奖励模型具有更好的对齐效果,并且在没有语言特定数据的情况下进行有监督的微调也是对齐中的另一个重要组成部分。
Apr, 2024
研究发现在大型语言模型的发展中,通过认同与人类价值观的算法对模型进行对齐的性能虽有所改善,但对模型的可信度提升并未经过彻底的测试。通过对五个可信度垂直方面进行实证研究,发现在偏好数据、对齐算法和特定可信度方面之间存在复杂的相互作用。因此,需要更加微妙的方法对模型进行对齐,以期望引导研究社区开发既能胜任任务又值得信赖的语言模型。
Apr, 2024
通过引入对令牌级别策略概率的额外约束来训练奖励模型的混合对齐框架(HaF-RM)能同时监督令牌级别的内部首选模型并优化奖励模型的映射层,通过解耦奖励建模过程并结合混合监督,我们的HaF-RM框架为增强奖励模型的性能和对齐提供了一种有原则和有效的方法。
Jul, 2024
本研究解决了强化学习中的价值对齐机制尚不明晰的问题,提出了新的评估指标来衡量人类价值建模与对齐的有效性。通过分析对齐数据集和奖励模型的响应,我们发现目标特征的显著印记和对不良概念的敏感性,并指出对齐不一致和模糊条目的重要性,这为价值对齐领域提供了深入的理解。
Aug, 2024
本研究解决了在大语言模型中应用人类反馈强化学习时,奖励模型可能因训练数据中的谬误相关性而导致的偏见问题,尤其是长度偏见。我们提出了一种后验奖励校准的方法,能够在不增加数据和训练的情况下,校正这些偏见,并通过局部加权回归方法进一步增强了这一方法的通用性和鲁棒性。实验结果显示,该方法在不同设置下均显著提升了奖励模型的表现和与人类偏好的对齐效果。
Sep, 2024