特权学生:关于多语言知识蒸馏中初始化价值的研究
本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系,提出了一种简单而有效的预训练蒸馏算法,分析了模型大小和无标记任务数据属性对其的影响。
Aug, 2019
本文研究知识蒸馏的动态方法是否能根据学生模型的能力,对三个方面进行调整,包括教师模型的采用,数据选择和蒸馏目标的调整,实验结果表明,动态知识蒸馏是有前途的,并提供了关于更有效KD方法的未来方向的讨论。
Sep, 2021
本文提出了一种基于教师-学生知识蒸馏的新型多语种训练技术,利用平衡(子采样)数据将单语教师模型的知识蒸馏到一个多语种学生中,可以提高自然语言处理系统中低资源语言的表现。
Oct, 2022
在知识蒸馏中,我们探索了一个很少被关注的问题:什么时候蒸馏知识?我们提出了模型校准的概念,将教师模型视为不仅提供知识的源头,而且作为检测学生模型失调的一个标尺。这种新颖的观点导致了一个硬门控知识蒸馏方案,可以在教师模型和训练数据之间进行学习,并在自然语言生成的上下文中进行了检验。实证比较表明,硬门控知识蒸馏不仅提高了模型的泛化性能,而且显著降低了模型的校准误差。
Oct, 2022
本文提出了一种新的知识蒸馏方法(GKD),通过引入梯度对齐这一重要的知识源,以提高预训练语言模型的学生模型的性能和可解释性。实验结果表明,使用GKD比先前的知识蒸馏方法效果更好。
Nov, 2022
DistiLLM是一种更有效和高效的知识蒸馏框架,适用于自回归语言模型,通过引入倾斜的Kullback-Leibler散度损失和自适应的离策略方法,构建高性能的学生模型,并相较于最近的知识蒸馏方法获得最高4.3倍的加速比。
Feb, 2024
知识蒸馏(KD)机制在大型语言模型(LLM)中起着关键作用,将专有的GPT-4等模型的先进功能和细腻理解传输到像LLaMA和Mistral这样的开源模型。此次调查详细讨论了KD机制、特定认知能力增强以及其在不同领域的实际应用,展示了数据增广(DA)和KD之间的相互关系,旨在弥合专有和开源LLM之间的差距,促进更具可访问性、高效性和可持续性的人工智能解决方案。
Feb, 2024
大语言模型(LLMs)在各种自然语言处理任务中有了显著的进展,但部署仍然需要大量的计算资源。我们介绍了一种名为Multi-Stage Balanced Distillation(BalDistill)的框架,通过在固定的计算资源预算内动态选择代表性的正样本和合成尾部样本,平衡训练数据,并在各种长尾数据集上取得了最先进的性能,提高了蒸馏模型的效率和效果。
Jun, 2024
这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查,将方法分为白盒知识蒸馏和黑盒知识蒸馏,并探讨了不同蒸馏方法之间的评估任务和蒸馏效果,并提出了未来研究的方向。通过深入了解最新进展和实际应用,这篇综述为研究人员提供了有价值的资源,为这一领域的持续进展铺平了道路。
Jul, 2024
本研究解决了小型语言模型在实际应用中面临的性能提升问题。我们提出了一种简单有效的知识蒸馏方法,通过分析教师模型的重要令牌,帮助学生模型更好地学习,从而显著提高了小型模型的性能,尤其在含有标签的多项选择题数据集上,68%的情况下提取的令牌是答案的组成部分。
Sep, 2024