ACLJun, 2024

PLaD: 偏好基的大型语言模型压缩与伪优选对

TL;DR本研究提出了一种名为 PLaD 的基于偏好的大型语言模型蒸馏框架,通过利用教师模型与学生模型之间的容量差异生成伪偏好对,使用排名损失重新校准学生模型对序列概率的估计,从而使学生模型更好地理解输出质量的相对优劣,而不是简单地模仿教师模型。通过在两个序列生成任务上进行广泛实验证明了 PLaD 框架的有效性。