Nov, 2023

强化学习中偏好一致性的影响:摘要生成案例研究

TL;DR从人类反馈中学习强化学习(RLHF)可以捕捉到文本生成质量的复杂和微妙的特性。本文探讨了偏好一致性对于文本摘要中 RLHF 的有效性的影响,通过展示人类偏好的采样范围包含一系列的标注者一致性,我们证明了(1)更高准确率的奖励模型和(2)所捕捉到的质量特征的改变。此外,当使用训练有一系列偏好一致性的奖励模型时,我们还展示了下游生成方面的改进。我们的贡献对于合成数据集的设计以及在比较性数据中考虑质量差异的重要性具有影响。