Feb, 2024

直接通过自我奖励对比提示精制的大型语言模型对齐

TL;DR通过对比提示对生成的偏好数据进行评估,并计算自奖励分数,最终使用 DPO 算法结合此自奖励分数来有效地对齐大型语言模型,实现了不依赖人工标注的偏好数据的 DLMA 方法能够超越 RLHF 方法。