Feb, 2024

DistiLLM:面向大型语言模型的精简蒸馏

TL;DRDistiLLM 是一种更有效和高效的知识蒸馏框架,适用于自回归语言模型,通过引入倾斜的 Kullback-Leibler 散度损失和自适应的离策略方法,构建高性能的学生模型,并相较于最近的知识蒸馏方法获得最高 4.3 倍的加速比。