Sep, 2024

仅需表达你的需求:仅提示的自我奖励在线偏好优化

TL;DR本研究解决了在线人类反馈强化学习(RLHF)中的自我奖励对齐方法的挑战。提出了一种新颖的仅提示自我奖励在线算法,通过生成偏好数据集而不依赖于判断能力,从而在模型训练后期生成更多硬负样本,显著提升了模型在捕捉人类细微偏好的能力,并在多个基准模型上展示了显著的性能提升。