Oct, 2024

朝着可靠的对齐:关注不确定性的强化学习人类反馈(RLHF)

TL;DR本研究针对强化学习人类反馈中 reward 模型的不确定性问题,提出了一种不确定性意识的保守算法以优化策略。通过理论和实验证实,该方法可降低风险,同时提高模型与人类偏好的一致性,具有重要的潜在影响。