支持决策边界的对抗样本知识蒸馏
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
Jan, 2023
该研究提出一种基于决策边界的黑盒知识蒸馏方法(DB3),包括由教师决策边界构造软标签,以及生成伪样本以代表未知数据,皆不需要接触教师参数,结果表明该方法在各种基准网络和数据集上都表现出有效性。
Jun, 2021
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
本文提出一种在线对抗蒸馏方法,通过以团体知识来作为动态虚拟教师和有效地捕获图神经网络中的结构变化来同时训练一组图神经网络。在这个方法中,我们通过传输反映图拓扑和节点属性信息的本地知识和反映类预测的全局知识来增强彼此的性能,以提高蒸馏性能。
Dec, 2021
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
使用知识蒸馏技术将深度神经网络转换成决策树,以同时实现较好的性能和可解释性,并比基准决策树模型获得显著更高的精度,在 TensorFlow 平台上实现对大数据集的可扩展性。
Dec, 2018
本文研究知识蒸馏过程中,如何将教师神经网络的鲁棒性传递给学生神经网络,并提出一种称为 Adversarially Robust Distillation (ARD) 的方法。实验证明,采用 ARD 的学生模型在鲁棒性上的表现明显优于采用相同结构的敌对训练网络,并在标准鲁棒性基准测试中超越了当前最先进的方法。
May, 2019
本文提出了一种基于知识蒸馏的对抗性学习框架以更好地训练轻量化(学生)卷积神经网络,同时全面考虑了大型(教师)卷积神经网络中的概率分布和中间层表示。实验结果表明,该方法可以显著地提高学生网络在图像分类和物体检测任务 上的性能。
Oct, 2018