理解和改善知识蒸馏
本研究评估了知识蒸馏的有效性以及它对学生和教师体系的依赖性。发现较精确的教师并不一定是好教师,且大型模型并不总是更好的教师,这导致了容器不匹配的问题,本研究表明教师的训练中止可以缓解这种效应,这些结果适用于各种数据集和模型。
Oct, 2019
使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的plug-in估计值,引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响,为标准蒸馏的预测误差提供了新的保证,并在表格式和图像数据上进行实证验证,观察到与知识蒸馏增强相关的一致改进。
Apr, 2021
研究表明知识蒸馏不仅可以提高模型性能,还可以增强模型的可解释性。通过量化比较模型可解释性中概念探测器数量的改变,研究表明老师模型传递到学生模型的类相似信息可以提高模型可解释性。这一结论得到了通过定量和定性实验以及不同数据集、不同KD方法和不同可解释性指标的检验。结果表明,通过KD,大模型训练的模型可更可靠地用于各种领域。
May, 2023
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出了面向少教师推理知识蒸馏(FTI KD)的方法,旨在减少对教师模型推理的依赖。本文观察到,当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感,提出了比较式知识蒸馏(CKD),它鼓励学生模型理解教师模型对样本解释的微妙差异,并为学生提供额外的学习信号,而无需进行额外的教师调用。此外,我们将CKD原理扩展到样本组,从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明,CKD始终优于最先进的数据增强和知识蒸馏技术。
Nov, 2023
知识蒸馏是一种模型压缩和性能提升的技术,在神经机器翻译领域取得了显著进展。本研究通过深入调查学生模型容量、数据复杂性和解码策略在单词级和序列级蒸馏中的相互作用,验证了有关这些因素对知识蒸馏影响的假设,同时提出了一种新颖的优化蒸馏方法,实现了最先进的翻译性能,推动了神经机器翻译领域的发展。
Dec, 2023
该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
Apr, 2024
本研究解决了现有对数值蒸馏方法的局限性,提出了精细化对数值蒸馏(RLD)方法。通过动态调整教师模型的对数值,RLD有效消除了教师模型中的误导信息,同时保留重要的类别相关性,从而提升了蒸馏知识的价值和效率。实验结果表明,该方法在CIFAR-100和ImageNet数据集上优于现有技术。
Aug, 2024
本研究针对现有日志蒸馏方法的局限性,提出了一种新的精炼日志蒸馏(RLD)方法。该方法通过动态精炼教师模型的日志预测,消除误导性信息,保留重要的类别相关性,从而提高学生模型的学习效果。实验结果表明,在CIFAR-100和ImageNet数据集上,RLD相较于其他方法具有更优越的表现。
Aug, 2024