本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。
Oct, 2023
使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。
Mar, 2022
本文提出了一种多教师知识蒸馏框架 MT-BERT,可以从多个教师 PLMs 中训练高质量的学生模型,并在三个基准数据集上验证了其压缩 PLMs 的有效性。
Jun, 2021
深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移,本研究通过实验探究了蒸馏过程对于信息损失的影响,并提出了一种优化配置方法。
Nov, 2023
本文提出一种新颖的知识蒸馏方法,该方法旨在学习对学生友好的教师模型以实现知识传递,并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。
Feb, 2021
本文提出了一种有效的集成知识蒸馏方法,该方法能够从多个教师模型学习未标记数据的知识,并据此训练单个学生模型。研究表明,通过考虑不同教师之间的预测差异以及样本难度,可以进一步提高蒸馏的效果。
Apr, 2022
本文提出一种基于多个 teacher assistant 的密集引导知识蒸馏方法,通过逐渐减小模型大小有效地弥合 teacher 和 student 之间的巨大差距,实现了对 student 的更高效学习,并在 CIFAR-10、CIFAR-100 和 ImageNet 上的多个 backbone 架构中取得了显著的性能提升。
Sep, 2020
本论文针对深度神经网络过于庞大以至于不能部署在移动设备等边缘设备的问题,提出了一种基于知识蒸馏的网络压缩方法。然而,该论文表明,如果学生网络与教师网络之间的差距太大,那么知识蒸馏的性能会下降;为此,该论文提出了一种多步知识蒸馏的方法,通过使用一个中等大小的网络(即教师助手)来弥补学生与教师之间的差距,并通过对 CIFAR-10,100 和 ImageNet 数据集进行广泛的实验证明了该方法的有效性。
Feb, 2019
本研究提出了一种名为 HetComp 的知识蒸馏框架,用于将异构模型的整体知识转移给一个轻量级模型,以减少资源成本和推理延迟,该框架使用动态知识构建和自适应知识传输提供逐步更难的排序信息,并通过全面实验表明该框架能够显著提高精度和泛化性能。
Mar, 2023