May, 2024

偏好匹配与流匹配

TL;DRPreference Flow Matching (PFM)是一种新的偏好强化学习(PbRL)框架,通过利用流匹配技术直接从偏好数据中学习,从而减少对预训练模型的大量微调的依赖,有效地将模型输出与人类偏好对齐,避免了奖励模型过拟合等常见问题。