本论文针对深度神经网络过于庞大以至于不能部署在移动设备等边缘设备的问题,提出了一种基于知识蒸馏的网络压缩方法。然而,该论文表明,如果学生网络与教师网络之间的差距太大,那么知识蒸馏的性能会下降;为此,该论文提出了一种多步知识蒸馏的方法,通过使用一个中等大小的网络(即教师助手)来弥补学生与教师之间的差距,并通过对 CIFAR-10,100 和 ImageNet 数据集进行广泛的实验证明了该方法的有效性。
Feb, 2019
本文提出一种新颖的知识蒸馏方法,该方法旨在学习对学生友好的教师模型以实现知识传递,并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。
Feb, 2021
本文提出了一种名为 GraphAKD 的新型对抗知识蒸馏框架,其中包括一个可训练的判别器和一个生成器,用于自适应地检测和降低深度图神经网络中的知识差异,并将其成功地应用于节点级和图级分类任务中,改善了学生 GNN 的性能。
May, 2022
本文提出了一种基于特征嵌入的新型教师 - 学生模型,使用局部保持损失函数优化低维特征生成,从而避免引入额外参数,通过实验证明该方法计算和存储复杂度均优于现有教师 - 学生模型。
Dec, 2018
本研究提出了一个基于多元正态分布的数据自由知识蒸馏方法,该方法从过度参数化神经网络中模拟中间特征空间并利用软目标标签生成伪样本以作为转换集。使用这些合成的转移集训练多个学生网络,表现出与使用原始训练集和其他无数据知识蒸馏方法训练的网络相当的竞争性能。
Apr, 2021
本文提出一种在线对抗蒸馏方法,通过以团体知识来作为动态虚拟教师和有效地捕获图神经网络中的结构变化来同时训练一组图神经网络。在这个方法中,我们通过传输反映图拓扑和节点属性信息的本地知识和反映类预测的全局知识来增强彼此的性能,以提高蒸馏性能。
Dec, 2021
本篇论文提出了一种新型的知识蒸馏方法,采用一对所有的空间匹配,提高小型神经网络的性能,不同于以往的一对一的空间匹配,从而导致所有的空间位置通常都具有不同的语义信息。该方法在各种计算机视觉基准测试中都超过了最先进的方法。
通过教师 - 学生架构,本综述对多种知识蒸馏目标进行了广泛的探索和总结,包括知识压缩、知识扩展、知识适应和知识增强等方面,为行业从业人员和学术界提供有关教师 - 学生架构的宝贵见解和指导。
Aug, 2023
由于数据不平衡和缺陷的多样性,学生 - 教师网络(S-T)在无监督异常检测中备受青睐,它通过知识蒸馏过程中从特征表示中探索差异来识别异常。文章通过构建新颖的双学生知识蒸馏(DSKD)架构来解决原生 S-T 网络不稳定的问题,该架构的关键在于使用两个具有相同尺度但结构相反的学生网络和一个单一预训练的教师网络。通过两种策略,即金字塔匹配模式和深度特征嵌入模块,以捕捉异常线索的高维语义信息,该架构可以增强蒸馏效果、改善正常数据的一致性识别,并同时引入多样性来表示异常,最终通过像素级异常分割图和样本判定的异常得分,实现了对三个基准数据集的评估和对内部模块的消融实验,结果显示 DSKD 在小型模型(如 ResNet18)上实现了卓越的性能,并有效改进了原生 S-T 网络。
Feb, 2024
本研究旨在探究神经网络在医学图像分割任务中的知识迁移可行性,特别关注从大规模多任务的 “教师” 网络向更小的 “学生” 网络的迁移。我们通过多尺度特征蒸馏和监督对比学习的结构,通过整合从教师模型获取的知识表示来提高学生模型的性能,并通过大量实验和消融研究评估了多尺度特征蒸馏的影响,以及不同损失对知识迁移的整体性能的影响。
Jun, 2024