May, 2024

基于隐性奖励差异的经验偏好优化

TL;DR本文提出了一种名为 $i$REPO 的新型大型语言模型对齐框架,通过利用隐式奖励对差异回归进行经验偏好优化,采用自动生成的数据集迭代地通过新型的回归损失函数改进对齐策略,实现软标签的自我对齐,并在实验中展现出对优化基准的超越。