SoTeacher: 面向学生的教师网络训练框架用于知识蒸馏
本论文针对深度神经网络过于庞大以至于不能部署在移动设备等边缘设备的问题,提出了一种基于知识蒸馏的网络压缩方法。然而,该论文表明,如果学生网络与教师网络之间的差距太大,那么知识蒸馏的性能会下降;为此,该论文提出了一种多步知识蒸馏的方法,通过使用一个中等大小的网络(即教师助手)来弥补学生与教师之间的差距,并通过对 CIFAR-10,100 和 ImageNet 数据集进行广泛的实验证明了该方法的有效性。
Feb, 2019
本研究评估了知识蒸馏的有效性以及它对学生和教师体系的依赖性。发现较精确的教师并不一定是好教师,且大型模型并不总是更好的教师,这导致了容器不匹配的问题,本研究表明教师的训练中止可以缓解这种效应,这些结果适用于各种数据集和模型。
Oct, 2019
通过使用教师网络的软输出作为向导进行学生网络的训练,知识蒸馏是模型压缩和知识转移的成功方法之一。本文通过分析一种宽神经网络的知识蒸馏,提出了一种称为数据效率的任务难度度量标准,并证明了在教师完美的情况下,教师软标签的高比例可以很有益处,并且在不完美的教师情况下,硬标签可以修正教师的错误预测,这解释了混合硬标签和软标签的实践。
Oct, 2020
研究表明,尽管知识蒸馏有助于学生网络提高推理能力,但通常情况下并不能完全符合教师模型的预测分布,而这往往是由于优化困难所导致的。此外,数据集的细节也影响着知识蒸馏的效果,更符合教师的结果不一定会带来更好的推理能力。
Jun, 2021
该研究提出了一种自适应分配逐样本可靠度的方法, 以每个教师的预测可信度来稳定知识转移过程, 并结合中间层来提高学生成绩, 在不同的教师-学生架构下, 优于所有其他现有方法。
Dec, 2021
通过一系列的实验,我们发现知识蒸馏(distillation)在教师网络存在低置信度的点的时候,会使得学生网络的置信度更低,而之后引入知识蒸馏(loss)会恢复部分性能,同时我们提供了两种理论视角来理解这种现象,作为特征空间的正则化项和梯度去噪器。
Jan, 2023
本文提出了一种新的知识蒸馏方法 PTLoss,通过扰动 KL-based distillation loss function,将原始 teacher 转换为更接近 ground truth 的 proxy teacher,从而显著提高了知识蒸馏的效果。
May, 2023
通过教师-学生架构,本综述对多种知识蒸馏目标进行了广泛的探索和总结,包括知识压缩、知识扩展、知识适应和知识增强等方面,为行业从业人员和学术界提供有关教师-学生架构的宝贵见解和指导。
Aug, 2023
本研究解决了传统知识蒸馏中学生网络难以理解教师复杂知识的问题,以提高知识转移的有效性。论文提出了一种新颖的学生导向知识蒸馏方法(SoKD),通过动态优化教师知识以更好地符合学生需求,并结合显著区域检测模块(DAM)聚焦于关键知识的转移。实验结果表明,该方法在性能和适应性方面均表现优异。
Sep, 2024