知识蒸馏的师生架构:综述
本文提出使用 L1 范数优化从教师网络选取子图作为学生来自动搜索最优学生架构进行知识蒸馏,并在 CIFAR 数据集上验证,实验表明相比手动指定学生结构,学习得到的学生模型性能更好,并且对该学生模型进行可视化和理解。
Jan, 2020
本文讨论了知识蒸馏和 S-T 学习,提供了对知识蒸馏的解释以及该方法的最新进展、技术细节和视觉应用状况的全面调查,并分析了现有方法的潜力和挑战,展望了知识蒸馏和 S-T 学习的未来方向。
Apr, 2020
提出了一种新的知识蒸馏框架,利用神经架构搜索技术和神经网络来学习深度神经网络教师模型以获得高效的学生模型。该方法通过减少教师和学生之间的模型容量差距,从而最大化从教师模型进行蒸馏的收益,我们在基于 CIFAR-100 和 TinyImageNet 的图像分类数据集上进行了广泛的实验,并通过神经架构搜索技术发现新的学生模型,其在准确性和内存使用上都比教师模型表现更好。
Nov, 2019
提出了使用神经架构搜索(NAS)来寻找最佳学生模型进行知识蒸馏的 KD-NAS 模型,该模型检索出与自然语言任务关联的顶级候选架构,然后在完整的下游任务培训集上提取架构,获得与手工制作的学生模型相当的性能,在 GPU 延迟方面却以 15%的速度提升(CPU 方面则以 20%的速度提升)。
Mar, 2023
该论文提出一种基于神经网络结构搜索的知识蒸馏模型 AKD,可以将老师模型的知识蒸馏到学生模型的参数和结构中。实验表明 AKD 方法比传统的 NAS 和 KD 方法更有效,在 ImageNet 分类任务和其他任务中都能取得最先进的结果。
Nov, 2019
知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法,近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等,致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。
Apr, 2023
由于数据不平衡和缺陷的多样性,学生 - 教师网络(S-T)在无监督异常检测中备受青睐,它通过知识蒸馏过程中从特征表示中探索差异来识别异常。文章通过构建新颖的双学生知识蒸馏(DSKD)架构来解决原生 S-T 网络不稳定的问题,该架构的关键在于使用两个具有相同尺度但结构相反的学生网络和一个单一预训练的教师网络。通过两种策略,即金字塔匹配模式和深度特征嵌入模块,以捕捉异常线索的高维语义信息,该架构可以增强蒸馏效果、改善正常数据的一致性识别,并同时引入多样性来表示异常,最终通过像素级异常分割图和样本判定的异常得分,实现了对三个基准数据集的评估和对内部模块的消融实验,结果显示 DSKD 在小型模型(如 ResNet18)上实现了卓越的性能,并有效改进了原生 S-T 网络。
Feb, 2024
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022