自我知识蒸馏正则化类别预测
该文介绍了一种称为渐进式自我知识蒸馏的有效规则化方法,适用于任何具有硬目标的监督学习任务,可以提高模型的泛化性能和置信度预测,并取得了优于基准的实验结果。
Jun, 2020
该研究旨在通过知识蒸馏和梯度滤波的方法提出一种简单而有效的训练策略以增强卷积神经网络在缺乏充足和代表性数据时的泛化能力,并通过多种任务的实验结果表明其有效性以及如何进一步提升深度神经网络的泛化能力。
Jul, 2021
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
Jun, 2020
提出了一种名为 “自蒸馏” 的卷积神经网络训练框架,通过将网络大小缩小而不是扩大来显著提高卷积神经网络的性能(准确性)。它与传统的知识蒸馏不同,后者是将预训练的教师神经网络的输出作为 softmax 层输出的近似值强制学生神经网络去逼近。该框架将知识内化到网络本身,对深度方面的可伸缩推理提供了灵活性,能够在资源有限的边缘设备上运行。
May, 2019
通过自知力蒸馏方法,有效地解决了语言模型在面对多义样本时过于自信地错误预测单一标签的问题,并通过重新校准置信度,在生成更好的标签分布上取得了显著的改进。同时,该方法相对于现有方法在训练模型时更高效,无需额外的训练过程来完善标签分布。
Jun, 2024
本文提出了一种用于回归问题的新的知识蒸馏形式,其中包括教师异常值拒绝损失函数和多任务网络等内容,并通过对多个数据集的评估表明,该方法可以提高准确性。
Feb, 2020
通过实验证明,多代自蒸馏能够在一定程度上提高模型的性能,之所以会出现这种情况,部分原因在于教学者预测的多样性。我们提出了一种新的教师 - 学员训练解释,即估计自适应正则化,这使得标签平滑的预测不确定性和预测多样性同样重要。我们还提出了一种新的实例特定标签平滑方法,并提供了实验证明其在许多情况下优于传统标签平滑方法。
Jun, 2020
本文提出了新型的知识蒸馏损失函数,其通过保留教师神经网络中相似输入的激活模式特征,指导学生神经网络的训练,使其在保留各自的表征空间中,能够准确地保持输入的相似度。实验结果表明了该方法的潜力。
Jul, 2019