Jun, 2023

RLHF 是否比标准 RL 更困难?

TL;DR这篇文章证明了,对于广泛的偏好模型,我们可以使用现有的算法和技术,直接解决基于偏好的强化学习问题,具有小的或没有额外成本。