Oct, 2023

用于对齐语言模型的组合偏好模型

TL;DR我们提出了一种新的偏好模型框架,即组合偏好模型(CPMs),它可以将一个全局偏好评估分解为多个可解释的特征,从提示的语言模型中获得这些特征的标量分数,并使用逻辑回归分类器聚合这些分数,实验证明,CPMs 不仅提高了泛化性能,并且对过度最优化更加稳健,而且使用 CPMs 获得的最佳样本往往优于传统偏好模型所获得的样本。