数据剪枝中的知识提取
提出了一种名为早期修剪与自我蒸馏(EPSD)的框架,它在给定自我蒸馏任务的早期修剪中识别和保留可蒸馏的权重,通过两步骤的过程高效地将早期修剪和自我蒸馏相结合,以保持修剪网络的可训练性进行模型压缩。
Jan, 2024
我们提出了一种利用关联距离和网络修剪的强化稳健知识蒸馏(R2KD)方法,能够有效结合数据增强以提高模型的性能。在各种数据集上进行了广泛的实验,包括 CIFAR-100、FGVR、TinyImagenet 和 ImageNet,这些实验证明了我们的方法优于当前最先进的方法。
Nov, 2023
该文介绍了一种称为渐进式自我知识蒸馏的有效规则化方法,适用于任何具有硬目标的监督学习任务,可以提高模型的泛化性能和置信度预测,并取得了优于基准的实验结果。
Jun, 2020
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
Jan, 2023
该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
Apr, 2024
本文提出了一种新的 “剪枝再蒸馏” 的框架,该框架在知识蒸馏中先对模型进行了剪枝以使其更易于转移,并且理论证明了剪枝后的教师模型在知识蒸馏中扮演了正则化器的作用,并减少了泛化误差。最后,我们提出了一种新的神经网络压缩方案,其中的学生网络是基于剪枝后的教师网络构建,然后采用 “剪枝再蒸馏” 的策略进行蒸馏。
Sep, 2021
本文提出了一种新的知识蒸馏方法,即分层蒸馏策略,用于解决推荐系统中已有的知识蒸馏方法中存在的推荐偏差问题。该方法通过对热门物品进行分层处理,提取每个组中的排名知识,用于监督学生模型的学习,避免了推荐结果的不准确和不公平。
Nov, 2022
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出了面向少教师推理知识蒸馏(FTI KD)的方法,旨在减少对教师模型推理的依赖。本文观察到,当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感,提出了比较式知识蒸馏(CKD),它鼓励学生模型理解教师模型对样本解释的微妙差异,并为学生提供额外的学习信号,而无需进行额外的教师调用。此外,我们将 CKD 原理扩展到样本组,从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明,CKD 始终优于最先进的数据增强和知识蒸馏技术。
Nov, 2023