神经语言模型的一致性蒸馏架构
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
Nov, 2020
提出了使用神经架构搜索(NAS)来寻找最佳学生模型进行知识蒸馏的 KD-NAS 模型,该模型检索出与自然语言任务关联的顶级候选架构,然后在完整的下游任务培训集上提取架构,获得与手工制作的学生模型相当的性能,在 GPU 延迟方面却以 15%的速度提升(CPU 方面则以 20%的速度提升)。
Mar, 2023
利用知识蒸馏技术将小型语法语言模型的知识传递到 LSTM 语言模型,从而使 LSTM 对更大的训练数据开发出更具结构感知性的表示方式。在针对语法的评估中,我们发现,尽管顺序 LSTM 比以前的报告要好得多,但我们提出的技术显著改善了这个基准值,产生了新的最佳成果。我们的发现和分析确认了结构上的偏差的重要性,甚至是在从大量数据中学习的模型中也如此。
Jun, 2019
本文提出了一种名为 MiniLLM 的方法,该方法利用 Kullback-Leibler 散度,会防止学生模型过度估计教师分布的低概率区域,实现了从生成式语言模型中提取出更小的语言模型,该方法在指令遵循情况下进行了广泛的实验,证明了 MiniLLM 模型的性能表现更佳。
Jun, 2023
通过分析发现大型语言模型在教学学生模型时会导致性能下降,设计了一种自适应教学方法(ATKD)来改进知识蒸馏,并通过大量实验验证其在各种模型类型和规模上均能显著提高性能(平均得分增加至多 + 3.04%)。更重要的是,ATKD 能有效改善学生模型的泛化能力。
Feb, 2024
知识蒸馏(KD)机制在大型语言模型(LLM)中起着关键作用,将专有的 GPT-4 等模型的先进功能和细腻理解传输到像 LLaMA 和 Mistral 这样的开源模型。此次调查详细讨论了 KD 机制、特定认知能力增强以及其在不同领域的实际应用,展示了数据增广(DA)和 KD 之间的相互关系,旨在弥合专有和开源 LLM 之间的差距,促进更具可访问性、高效性和可持续性的人工智能解决方案。
Feb, 2024
本文提出了一种新的语言表示学习的知识蒸馏方法,通过单词关系和层变换关系传递上下文知识,无需限制教师和学生的架构变化,验证了该方法在语言理解任务的各种架构和 DynaBERT 等自适应尺寸剪枝方法的挑战性基准上的有效性。
Sep, 2021
本论文提出了一种新的多层次多语种知识蒸馏方法(MMKD),采用英语 BERT 中的丰富语义表征知识和师生框架来鼓励源 - 目标对之间的多个层次一致性和教师和学生模型之间的相关相似性,以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明,相对其他基线模型,MMKD 在 XNLI 和 XQuAD 上表现更好,在 PAWS-X 上表现相当,并且在低资源语言上获得了显著的性能提升。
Nov, 2022
通过提出双空间知识蒸馏 (DSKD) 框架,我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题,并进一步开发了跨模型注意力机制,支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明,DSKD 在各种距离函数下显著优于当前白盒知识蒸馏框架,并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。
Jun, 2024