Mar, 2024

ALaRM: 通过层次化奖励模型对齐语言模型

TL;DR我们介绍了 ALaRM,这是第一个模拟强化学习中的分层奖励的框架,旨在增强大型语言模型与人类偏好的一致性。该框架通过将整体奖励与特定方面的奖励相结合,解决了当前对齐方法的局限性,从而更准确、一致地引导语言模型朝着期望的结果发展,特别是在复杂和开放的文本生成任务中。通过采用基于一致性过滤和组合多个奖励的方法,该框架提供了一种可靠的机制来改善模型的对齐。我们通过在长篇问答和机器翻译任务中应用 gpt-3.5-turbo 进行成对比较,并证明了与现有基线方法相比的改进效果。我们的工作强调了分层奖励建模在改善语言模型训练过程中对人类偏好一致性的有效性。我们在此 URL 上发布了我们的代码。