减小词汇量的俄语语言模型知识蒸馏
本文提出了一种新的语言表示学习的知识蒸馏方法,通过单词关系和层变换关系传递上下文知识,无需限制教师和学生的架构变化,验证了该方法在语言理解任务的各种架构和DynaBERT等自适应尺寸剪枝方法的挑战性基准上的有效性。
Sep, 2021
在知识蒸馏中,我们探索了一个很少被关注的问题:什么时候蒸馏知识?我们提出了模型校准的概念,将教师模型视为不仅提供知识的源头,而且作为检测学生模型失调的一个标尺。这种新颖的观点导致了一个硬门控知识蒸馏方案,可以在教师模型和训练数据之间进行学习,并在自然语言生成的上下文中进行了检验。实证比较表明,硬门控知识蒸馏不仅提高了模型的泛化性能,而且显著降低了模型的校准误差。
Oct, 2022
本研究探讨了一种Knowledge Distillation的新方法,即从神经网络和词汇知识库中提取语言信息,以提供大规模模型的高效替代方案,并提出了两种基于多个teacher networks预测权重的技术以及一种用于词义消歧的方法,并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务(NLU)的性能,同时在Plagiarism Detection方面也有了更好的表现。
Jan, 2023
本文提出了一种名为MiniLLM的方法,该方法利用Kullback-Leibler散度,会防止学生模型过度估计教师分布的低概率区域,实现了从生成式语言模型中提取出更小的语言模型,该方法在指令遵循情况下进行了广泛的实验,证明了MiniLLM模型的性能表现更佳。
Jun, 2023
我们提出了一个名为f-DISTILL的框架,将序列级别的知识蒸馏作为最小化广义f-分歧函数的过程,并显示现有的SeqKD和ENGINE方法是我们f-DISTILL方法的近似。通过在四个数据集上的实验,我们发现我们的方法优于现有的蒸馏方法,并且我们的对称蒸馏损失可以更好地促使学生从教师分布中学习。
Jul, 2023
本研究使用了Transformer-based模型(如BERT、GPT和T5),并进行了知识蒸馏来进行模型压缩,特别关注TinyBERT学生模型。通过实验不同的损失函数、Transformer层映射方法和注意力和表示损失的权重调整,评估了提出的方法在GLUE基准测试的若干下游任务上的效果,旨在提高知识蒸馏技术的效率和准确性,为各种自然语言处理任务的开发提供更高效和准确的模型。
Aug, 2023
DistiLLM是一种更有效和高效的知识蒸馏框架,适用于自回归语言模型,通过引入倾斜的Kullback-Leibler散度损失和自适应的离策略方法,构建高性能的学生模型,并相较于最近的知识蒸馏方法获得最高4.3倍的加速比。
Feb, 2024
通过提出双空间知识蒸馏 (DSKD) 框架,我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题,并进一步开发了跨模型注意力机制,支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明,DSKD在各种距离函数下显著优于当前白盒知识蒸馏框架,并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。
Jun, 2024
这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查,将方法分为白盒知识蒸馏和黑盒知识蒸馏,并探讨了不同蒸馏方法之间的评估任务和蒸馏效果,并提出了未来研究的方向。通过深入了解最新进展和实际应用,这篇综述为研究人员提供了有价值的资源,为这一领域的持续进展铺平了道路。
Jul, 2024
本研究解决了知识蒸馏中学生模型学习教师大型语言模型多模态概率分布的困难。我们提出了一种基于排序损失的知识蒸馏方法(RLKD),通过提升模型预测峰值之间的排序一致性,有效改进了现有知识蒸馏方法的效率。实验结果显示,该方法显著提高了学生模型在多种下游任务中的表现。
Sep, 2024