本文提出了一种名为 MiniLLM 的方法,该方法利用 Kullback-Leibler 散度,会防止学生模型过度估计教师分布的低概率区域,实现了从生成式语言模型中提取出更小的语言模型,该方法在指令遵循情况下进行了广泛的实验,证明了 MiniLLM 模型的性能表现更佳。
Jun, 2023
DistiLLM 是一种更有效和高效的知识蒸馏框架,适用于自回归语言模型,通过引入倾斜的 Kullback-Leibler 散度损失和自适应的离策略方法,构建高性能的学生模型,并相较于最近的知识蒸馏方法获得最高 4.3 倍的加速比。
Feb, 2024
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
Nov, 2020
通过分析发现大型语言模型在教学学生模型时会导致性能下降,设计了一种自适应教学方法(ATKD)来改进知识蒸馏,并通过大量实验验证其在各种模型类型和规模上均能显著提高性能(平均得分增加至多 + 3.04%)。更重要的是,ATKD 能有效改善学生模型的泛化能力。
在大型语言模型领域,我们提出了 Direct Preference Knowledge Distillation (DPKD) 方法,通过利用分布差异来表示偏好损失和隐式奖励函数,将语言模型知识蒸馏分为两个阶段,并通过实验证明了其广泛适用性和有效性。同时,我们通过实验和理论分析证明了引入的隐式奖励和输出偏好在知识蒸馏中的价值和效果,DPKD 方法在输出响应精度和完全匹配百分比上优于基准方法。
Jun, 2024
本文介绍一种名为 MATE-KD 的新型对抗训练算法,可改善知识蒸馏的性能,本文的算法在自然语言处理中的应用表现优秀,尤其在关键性能测试(GLUE benchmark)中。
May, 2021
通过提出双空间知识蒸馏 (DSKD) 框架,我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题,并进一步开发了跨模型注意力机制,支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明,DSKD 在各种距离函数下显著优于当前白盒知识蒸馏框架,并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。
本研究提出了一种名为 PLaD 的基于偏好的大型语言模型蒸馏框架,通过利用教师模型与学生模型之间的容量差异生成伪偏好对,使用排名损失重新校准学生模型对序列概率的估计,从而使学生模型更好地理解输出质量的相对优劣,而不是简单地模仿教师模型。通过在两个序列生成任务上进行广泛实验证明了 PLaD 框架的有效性。
我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法,该方法通过将每个教师与潜在表示相关联,自适应地学习实例级教师重要性权重,从而获取集成的高级知识,并通过多组提示策略从多个教师处汇集中间级知识。实验表明,该方法确保学生比强竞争者取得了更好的性能。
Mar, 2021
该研究提出一种新的对抗蒸馏机制,用于在没有真实数据的情况下制作紧凑的学生模型,这种数据免费的方法在分类和语义分割中表现出与基于数据驱动的方法相当的性能甚至更好。
Dec, 2019