Aug, 2024

离线人类反馈强化学习方法需要更精确的监督信号

TL;DR本研究聚焦于现有离线人类反馈强化学习(RLHF)在捕捉反馈偏好方面存在的不足,尤其是忽视了偏好强度。我们提出了一种称为奖励差异优化(RDO)的新方法,通过引入奖励差异系数来调整样本对的权重,进而提高LLMs与人类意图的对齐效果。实验结果表明,该方法在自动评测和人工评估中均表现出良好效果,展示了其在提高模型对人类价值观的适应性方面的潜力。