通过对同标签样本之间的预测分布进行正则化,使得深度神经网络在图像分类任务中显著提高预测能力和置信度表现的一种新的正则化方法。
Mar, 2020
本文提出一种基于深度学习模型自身的软目标概率的自我知识蒸馏方法,在两种基本的 NLP 任务(语言模型和神经机器翻译)上部署实验,并表明了该方法的性能提高。
Aug, 2019
本研究提出了一个基于多元正态分布的数据自由知识蒸馏方法,该方法从过度参数化神经网络中模拟中间特征空间并利用软目标标签生成伪样本以作为转换集。使用这些合成的转移集训练多个学生网络,表现出与使用原始训练集和其他无数据知识蒸馏方法训练的网络相当的竞争性能。
Apr, 2021
通过集成知识蒸馏技术,本文探讨在数据修剪过程中的应用,证明了使用简单随机修剪方法优于复杂的修剪方法,并研究了修剪程度与知识蒸馏权重的关系,以及教师网络规模对准确性的影响。
Mar, 2024
提出了一种利用多源信息进行自知识蒸馏的轻量级框架,其中包括反向引导方法和形状正则化方法,其在各种数据集和模型上的综合实验中表现优于基线和最先进的自知识蒸馏方法,同时具有计算效率和鲁棒性。
May, 2023
本文挑战了使用强大的 teacher model 教授弱 student model 的共识,详细阐述了 KD 和 label smoothing regularization 之间的关系,提出了 Teacher-free Knowledge Distillation(Tf-KD)框架,通过自学和手动设计正则化分布,实现了与正常 KD 相媲美的性能。
Sep, 2019
通过特征蒸馏方法,我们的研究提出了一种新的约束特征蒸馏方法,该方法可以应用于训练小型高效的深度学习模型,并在 ImageNet 数据集上获得了显著的性能提升。
本文介绍了一种名为 Annealing-KD 的改进型知识蒸馏方法,通过渐进式地提供教师模型提供的丰富信息来训练更小的学生模型,从而使得知识蒸馏方法在训练力度较大的学生模型时更有效。作者在不同的任务上进行了实验验证,包括图像分类和自然语言推理等。
本文提出了一种名为 ProKT 的知识蒸馏方法,通过将教师模型的监督信号投影到学生参数空间中,从而在优化过程中实现了更好的局部最优解,实验结果表明,与其他现有的知识蒸馏方法相比,ProKT 在图像和文本数据集上都展现出了卓越的性能。
Jul, 2021
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
Jan, 2023