Feb, 2025
捕捉细致偏好:面向小型语言模型的偏好对齐蒸馏
Capturing Nuanced Preferences: Preference-Aligned Distillation for Small
Language Models
TL;DR本研究解决了当前小型语言模型(SLMs)在从大型语言模型(LLMs)中蒸馏偏好知识时所面临的细化问题,提出了一种偏好对齐蒸馏(PAD)框架。通过将教师模型的偏好知识建模为潜在偏好的概率分布,PAD提供了更细致的监督信号,并在多项对齐基准测试中展现出超过20%的显著提升,表明其更好地对齐了人类的偏好。