预训练模型知识蒸馏的实用洞见
研究了一种名为 Knowledge Distillation as Efficient Pre-training (KDEP) 的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的 KD 方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
通过交互式通信过程扩展了知识蒸馏技术,帮助下游任务的学生有效地从预训练的基础模型中学习,并在基准数据集上进行实验证明我们的通信机制优于最先进的蒸馏技术。
Oct, 2023
本篇研究探讨了如何通过知识蒸馏技术,减少重新训练模型所需时间和计算成本,实验结果表明,在保证准确率的前提下,通过蒸馏前一次迭代的模型来优化后续的模型,是一种可行的对模型训练耗时和费用成本的优化方法。
Mar, 2023
本文研究知识蒸馏的动态方法是否能根据学生模型的能力,对三个方面进行调整,包括教师模型的采用,数据选择和蒸馏目标的调整,实验结果表明,动态知识蒸馏是有前途的,并提供了关于更有效 KD 方法的未来方向的讨论。
Sep, 2021
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
针对 transformer-based pre-trained language models 在实际应用中过大且延迟高的问题,该研究提出一种基于 knowledge distillation 的压缩方法,并通过系统实验对比分析知识类型、匹配策略、模型大小等多方面,最终提供一套最佳实践指南。
Jun, 2022
本文提出了一种新的知识蒸馏方法(GKD),通过引入梯度对齐这一重要的知识源,以提高预训练语言模型的学生模型的性能和可解释性。实验结果表明,使用 GKD 比先前的知识蒸馏方法效果更好。
Nov, 2022