自我知识蒸馏正则化类别预测

CVPRMar, 2020

Regularizing Class-wise Predictions via Self-knowledge Distillation

Sukmin Yun, Jongjin Park, Kimin Lee, Jinwoo Shin

TL;DR通过对同标签样本之间的预测分布进行正则化，使得深度神经网络在图像分类任务中显著提高预测能力和置信度表现的一种新的正则化方法。

Abstract

deep neural networks with millions of parameters may suffer from poor generalization due to overfitting. To mitigate the issue, we propose a new regularization method that penalizes the →

deep neural networks regularization method predictive distribution knowledge distillation image classification

发现论文，激发创造

自我知识蒸馏与渐进式目标细化

该文介绍了一种称为渐进式自我知识蒸馏的有效规则化方法，适用于任何具有硬目标的监督学习任务，可以提高模型的泛化性能和置信度预测，并取得了优于基准的实验结果。

Jun, 2020

拥抱黑暗知识：使用规则化知识蒸馏进行领域泛化

该研究旨在通过知识蒸馏和梯度滤波的方法提出一种简单而有效的训练策略以增强卷积神经网络在缺乏充足和代表性数据时的泛化能力，并通过多种任务的实验结果表明其有效性以及如何进一步提升深度神经网络的泛化能力。

Jul, 2021

知识蒸馏与自监督相遇

本文介绍了一种新的知识蒸馏方法，使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识，并将其成功地传递到学生网络中，从而实现了在各种基准测试下的表现优异。

Jun, 2020

自我蒸馏：通过蒸馏提高卷积神经网络性能

提出了一种名为 “自蒸馏” 的卷积神经网络训练框架，通过将网络大小缩小而不是扩大来显著提高卷积神经网络的性能（准确性）。它与传统的知识蒸馏不同，后者是将预训练的教师神经网络的输出作为 softmax 层输出的近似值强制学生神经网络去逼近。该框架将知识内化到网络本身，对深度方面的可伸缩推理提供了灵活性，能够在资源有限的边缘设备上运行。

May, 2019

自知力蒸馏用于学习模糊性

通过自知力蒸馏方法，有效地解决了语言模型在面对多义样本时过于自信地错误预测单一标签的问题，并通过重新校准置信度，在生成更好的标签分布上取得了显著的改进。同时，该方法相对于现有方法在训练模型时更高效，无需额外的训练过程来完善标签分布。

Jun, 2024

从自监督学习中提取视觉先验

本文提出一种新的两阶段流程，通过自监督学习和知识蒸馏来提高卷积神经网络模型在小数据集下的图像分类泛化能力，并使用新型边缘损失来更好地学习表示。

Aug, 2020

知识蒸馏在小模型回归问题训练中的高效方法

本文提出了一种用于回归问题的新的知识蒸馏形式，其中包括教师异常值拒绝损失函数和多任务网络等内容，并通过对多个数据集的评估表明，该方法可以提高准确性。

Feb, 2020

自我蒸馏作为实例特定标签平滑化

通过实验证明，多代自蒸馏能够在一定程度上提高模型的性能，之所以会出现这种情况，部分原因在于教学者预测的多样性。我们提出了一种新的教师 - 学员训练解释，即估计自适应正则化，这使得标签平滑的预测不确定性和预测多样性同样重要。我们还提出了一种新的实例特定标签平滑方法，并提供了实验证明其在许多情况下优于传统标签平滑方法。

Jun, 2020

自知力蒸馏在自然语言处理中

本文提出一种基于深度学习模型自身的软目标概率的自我知识蒸馏方法，在两种基本的 NLP 任务（语言模型和神经机器翻译）上部署实验，并表明了该方法的性能提高。

Aug, 2019

相似性保持知识蒸馏

本文提出了新型的知识蒸馏损失函数，其通过保留教师神经网络中相似输入的激活模式特征，指导学生神经网络的训练，使其在保留各自的表征空间中，能够准确地保持输入的相似度。实验结果表明了该方法的潜力。

Jul, 2019