Jun, 2024

WARP: 关于加权平均奖励策略的好处

TL;DR使用人类反馈进行强化学习的 WARP 方法,在保持预训练知识的同时优化奖励函数,经过迭代逐渐改进 KL - 奖励的权衡,提升了 GEMMA 策略的质量和对齐度。