本篇论文提出了一种新型的知识蒸馏方法,采用一对所有的空间匹配,提高小型神经网络的性能,不同于以往的一对一的空间匹配,从而导致所有的空间位置通常都具有不同的语义信息。该方法在各种计算机视觉基准测试中都超过了最先进的方法。
May, 2022
本文通过实验证明了正则化 (即 normalisation)、软最大值函数以及投影层是知识蒸馏的关键因素,并提出了一种简单的软最大函数来解决容量差异问题。实验结果表明,使用这些洞见可以实现与最先进的知识蒸馏技术相当或更好的性能,而且计算效率更高。
Mar, 2023
研究了一种名为 Knowledge Distillation as Efficient Pre-training (KDEP) 的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的 KD 方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
本文提出了一种名为 ProKT 的知识蒸馏方法,通过将教师模型的监督信号投影到学生参数空间中,从而在优化过程中实现了更好的局部最优解,实验结果表明,与其他现有的知识蒸馏方法相比,ProKT 在图像和文本数据集上都展现出了卓越的性能。
Jul, 2021
通过使用反向投影的简单修改,我们提出了一种针对跨任务设置的知识蒸馏方法,能够有效处理不同任务之间的教师和学生模型,在没有额外成本的情况下,在跨任务设置下相比传统投影获得了高达 1.9%的改进。此外,我们还使用反向投影进行了分析,提出了一种新的正则化损失函数,使得在 ImageNet 上的无教师蒸馏性能提升高达 8.57%,且无需额外的训练成本。
Mar, 2024
本文提出了一种早期知识蒸馏框架 (DearKD),通过从卷积神经网络的早期中间层中提取归纳偏差然后通过无蒸馏进行训练,以提高变压器所需的数据效率。我们还针对极端的零数据情况提出了一种基于 DeepInversion 的边界保留内部分歧损失,从而进一步缩小与完整数据对照组之间的性能差距。针对 ImageNet、partial ImageNet、无数据设置和其他下游任务的大量实验证明 DearKD 优于其基准和最先进的方法。
Apr, 2022
本文介绍了一种用于减小大规模计算机视觉模型尺寸、同时不影响性能的知识蒸馏方法,并且明确了影响该方法有效性的设计选择。通过全面的实验研究,我们在多种视觉数据集上获得了令人信服的结果,并实现了在 ImageNet 数据集上的 ResNet-50 模型的最新表现,其 top-1 准确率为 82.8%。
Jun, 2021
本文提出 VL distillation,使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型,以提高图像字幕生成和视觉问答任务中的性能。
Apr, 2021
该文介绍了一种称为渐进式自我知识蒸馏的有效规则化方法,适用于任何具有硬目标的监督学习任务,可以提高模型的泛化性能和置信度预测,并取得了优于基准的实验结果。
Jun, 2020
该研究旨在通过知识蒸馏和梯度滤波的方法提出一种简单而有效的训练策略以增强卷积神经网络在缺乏充足和代表性数据时的泛化能力,并通过多种任务的实验结果表明其有效性以及如何进一步提升深度神经网络的泛化能力。