Feb, 2024

PRDP:基于近似奖励差异预测的扩展模型大规模奖励微调

TL;DR我们提出了 Proximal Reward Difference Prediction (PRDP) 方法,通过稳定的黑盒子奖励微调在大规模提示数据集上实现了扩散模型。