Jun, 2024

大型语言模型的双空间知识蒸馏

TL;DR通过提出双空间知识蒸馏 (DSKD) 框架,我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题,并进一步开发了跨模型注意力机制,支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明,DSKD在各种距离函数下显著优于当前白盒知识蒸馏框架,并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。