Apr, 2025
大型语言模型的一种双空间框架用于通用知识蒸馏
A Dual-Space Framework for General Knowledge Distillation of Large
Language Models
TL;DR本研究针对现有白盒知识蒸馏(KD)框架在不同输出空间和词汇不兼容性方面的限制,提出了一种双空间知识蒸馏(DSKD)框架。该框架通过统一教师和学生模型的预测头,并开发精确的标记对齐算法,提升了知识蒸馏的效果。实验证明,DSKD在指令跟随、数学推理和代码生成等基准测试中显著优于现有方法,具有广泛的应用前景。