ACLMar, 2024

利用策略奖励学习对语言模型进行微调

TL;DR提出了一种基于策略的奖励学习(RLP)无监督框架,通过使用策略样本来完善奖励模型,以保持其在分布上的一致性,实验结果表明 RLP 在三个基准数据集上始终优于现有技术。