Feb, 2024

回归基础:重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化

TL;DR通过改进 Proximal Policy Optimization,使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化,从而提高 AI 对人类反馈的 RLHF 的性能。