本论文提出了一种推广的知识蒸馏方法,旨在解决在训练和生成阶段输出序列之间的差异,并通过优化替代的发散方法来处理模型不充分的问题。实验证明,Generalized Knowledge Distillation (GKD) 在压缩生成语言模型时表现优异。
Jun, 2023
通过对同标签样本之间的预测分布进行正则化,使得深度神经网络在图像分类任务中显著提高预测能力和置信度表现的一种新的正则化方法。
Mar, 2020
该文介绍了一种称为渐进式自我知识蒸馏的有效规则化方法,适用于任何具有硬目标的监督学习任务,可以提高模型的泛化性能和置信度预测,并取得了优于基准的实验结果。
Jun, 2020
提出了一种新的方法,通过利用训练教师网络内在归一化层的统计信息来训练生成图像模型,从而在没有训练数据的情况下实现知识迁移、模型压缩和半监督学习,该方法在 CIFAR-10 和 CIFAR-100 数据集上表现出色,并能够将其扩展到 ImageNet 数据集。
Dec, 2020
我们提出了一种利用关联距离和网络修剪的强化稳健知识蒸馏(R2KD)方法,能够有效结合数据增强以提高模型的性能。在各种数据集上进行了广泛的实验,包括 CIFAR-100、FGVR、TinyImagenet 和 ImageNet,这些实验证明了我们的方法优于当前最先进的方法。
Nov, 2023
通过集成知识蒸馏技术,本文探讨在数据修剪过程中的应用,证明了使用简单随机修剪方法优于复杂的修剪方法,并研究了修剪程度与知识蒸馏权重的关系,以及教师网络规模对准确性的影响。
Mar, 2024
无需师生模型或图神经网络,纯基于多层感知器的图自蒸馏 (TGS) 框架在训练中利用结构信息进行自知识蒸馏,从而在推理中无数据依赖,显著提高了多层感知器的性能,并在六个真实数据集上超过最先进的图知识蒸馏算法。此外,TGS 的推理速度比现有 GNNs 快 75 倍至 89 倍,比传统推理加速方法快 16 倍至 25 倍。
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
本文提出了基于邻近差异率(NDR)的自适应差异保留(ADR)正则化器以加强知识的传递,进而提出了一种基于 GNN-SD 框架的通用图神经网络知识蒸馏方法,它在减少训练成本的同时实现了领先的蒸馏效果,并为多种流行的骨干网路提供了一致有效的性能增强。
Nov, 2020
本文介绍了一种被称为 generalized distillation 的机器学习框架,它将蒸馏和特权信息这两种技术统一起来,可以让机器从其他机器中学习,本文从理论和实践上探讨了该框架的内部机制,并将其扩展到无监督、半监督和多任务学习场景中,通过在合成和真实世界数据的各种数字模拟实验中对其有效性进行了论证。
Nov, 2015