Aug, 2024

公开批评奖励模型

TL;DR本研究针对传统奖励模型在利用人类反馈进行强化学习时的局限性,提出了一种新颖的“公开批评”奖励模型(CLoud)。通过生成自然语言的批评来显式评估回应质量,CLoud模型在奖励预测中表现出更高的准确率,显著改善了基于奖励基准的偏好分类精度,显示出其在提升模型性能方面的潜力。