教师到学生知识迁移的嵌入式压缩
使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。
Mar, 2022
本文提出了一种基于特征嵌入的新型教师 - 学生模型,使用局部保持损失函数优化低维特征生成,从而避免引入额外参数,通过实验证明该方法计算和存储复杂度均优于现有教师 - 学生模型。
Dec, 2018
本篇研究提出了在两种不同类型的 ranker 模型上扩展句子转换蒸馏过程的两种方法,包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明,采用这些扩展技术的学生模型具有极大的压缩程度,而且在测试数据集上表现出高度的有效性和能用性。
Jun, 2022
本研究介绍了一种通过对抗网络压缩方法实现从深层精确的模型向更小的模型中转移知识的方法,该方法不需要使用标签进行训练,并在不同的师生模型上泛化;在五个固定的标准数据集上进行广泛的评估表明,该学生模型准确率略有下降,而且性能比其他知识传输方法更好,并且超越了同一网络在使用标签训练时的性能,并且对比其他压缩策略的表现也达到了现有的最佳水平。
Mar, 2018
本文提出了一种新颖的基于知识蒸馏的模型压缩框架,在学生集成中启用了同时学习的知识蒸馏,并在压缩的学生模型上蒸馏同时学到的集成知识,该方法在不需要预训练权重的情况下同时训练了压缩学生和集成教师。该方法可以交付多个压缩的学生,并且使用我们的框架,可以以高效和灵活的方式适应不同场景。实验结果表明,使用我们的框架,一个压缩率达 97% 的 ResNet110 学生模型在 CIFAR100 数据集上相对精度提高了 10.64%,类似地,一个压缩率达 95%的 DenseNet-BC (k = 12)模型相对精度提高了 8.17%。
Nov, 2020
本文通过使用混合词汇训练来对齐师生嵌入,提出了一种压缩 BERT-LARGE 的知识蒸馏方法,使其成为一个具有更小词汇表和隐藏维数的无任务模型,这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。
Sep, 2019
本研究通过引入基于噪声的正则项对深度学习模型压缩中的教师 - 学生框架进行扩展,以解决模型存储大小、运行时复杂度和训练时复杂度等问题,实验结果在 CIFAR-10 数据集上表现最佳,表明该方法在深度模型压缩方面有潜力。
Oct, 2016
通过利用嵌入作为教师,我们扩展了 CLIP 用于高效进行知识蒸馏,初步结果表明,使用嵌入进行基于 CLIP 的知识蒸馏可以在使用少至 9 倍内存和 8 倍训练时间的情况下优于完整规模的知识蒸馏。
Apr, 2024
本文提出了一种新的嵌入蒸馏框架,使词嵌入的维度显著降低但不影响准确性,并介绍了使用多个教师模型训练高效的学生模型的新型蒸馏集成方法。通过实验验证,在七个文本分类数据集上,该方法在大多数情况下均表现出比教师模型更好的性能,对词嵌入的变换进行了深入分析,并提出了使用神经模型进行融合的未来研究方向。
May, 2019