May, 2024

无奖励强化学习中的群组偏好优化

TL;DR利用新方法 Group Robust Preference Optimization (GRPO) 对大型语言模型进行重调优,通过考虑不同群体的特点和需求,显著提高了最差表现的群体的性能,减少了群体间的损失不平衡,提高了概率准确性。