Jun, 2024

WPO: 加强 RLHF 的加权偏好优化

TL;DR通过权重偏好优化方法(WPO),我们提出了一种新的策略来缓解离策略偏好优化中分布差异的问题,该方法通过重新加权优先级对预期对策激励进行了模拟,从而更好地逼近离策略数据。我们在指令遵循评估基准上验证了我们的方法,并在 Alpaca Eval 2 上比直接优先权优化(DPO)的表现提高了最高 5.6%,并且在 Llama-3-8B-Instruct 上基于 GPT-4-turbo 建立了显着的长度控制胜率为 48.6%,使其成为排行榜上最强的 8B 模型。