Sep, 2024

房间里的大象:揭示奖励模型质量在对齐中的影响

TL;DR本研究解决了大型语言模型对齐中奖励模型质量被忽视的问题,首次对广泛使用的偏好数据集HH-RLHF进行了质量调查,并创建了清洁版CHH-RLHF。通过严谨的基准测试和实验,揭示了奖励模型质量与对齐性能之间的显著关系,强调了在对齐研究中必须重视奖励模型的评估和开发更可靠的人类代理的重要性。