Dec, 2023

RLHF中的策略优化:偏离偏好数据的影响

TL;DR通过对直接优化偏好和基于奖励模型的策略优化的比较,该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能,并且RMB-PO+方法表现最佳。