May, 2024

D2PO:带鉴别器引导的 DPO 及响应评估模型

TL;DR我们提出了 D2PO,即鉴别器引导的 DPO,在线设置下通过收集偏好来训练策略,同时使用鉴别器模型对回应进行评估,以获得高质量的输出和更高的效率。