Jun, 2024

PAL:异构偏好学习的多元对齐框架

TL;DR大规模基础模型预训练在原始网络数据上,无法直接部署,需要经过广泛的与人类偏好的协调。本文提出 PAL 框架,将人类偏好的多样性融入到预训练策略中,通过理想点模型和混合建模方法,捕捉到群体偏好的多样性,同时学习一种常用的偏好潜空间,能够适应新用户的少样本泛化。该方法利用基础模型的倒数第二层表示和简单的 MLP 层,学习与现有大型先进奖励模型相当的奖励函数,极大提升了奖励建模的效率。实验证明,PAL 在多个数据集上与基准模型相比,能够达到竞争性的奖励模型准确性,并揭示了当前偏好数据集的不足,呼吁采用更细致的数据收集方法。