Feb, 2024

RS-DPO:一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法

TL;DR通过系统地结合拒绝采样和直接偏好优化方法,我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调,提高其与用户意图的一致性,并且胜过 RS、PPO 和 DPO 等现有方法。