BriefGPT.xyz
Ask
alpha
关键词
implicit reward function
搜索结果 - 1
大型语言模型的直接偏好知识蒸馏
在大型语言模型领域,我们提出了 Direct Preference Knowledge Distillation (DPKD) 方法,通过利用分布差异来表示偏好损失和隐式奖励函数,将语言模型知识蒸馏分为两个阶段,并通过实验证明了其广泛适用性
→
PDF
8 days ago
Prev
Next