Oct, 2024

MiniPLM:用于预训练语言模型的知识蒸馏

TL;DR本研究解决了预训练语言模型(KD)过程中效率、灵活性和有效性的问题。我们提出了MiniPLM框架,通过优化教师模型的知识提高训练数据的分布,以实现高效的离线推理和跨模型家族的知识蒸馏,并增强小模型的能力与知识多样性。实验表明,MiniPLM显著提升了学生模型在多个下游任务上的表现,同时减少了预训练计算量。