该论文提出了一种名为 “Peer Collaborative Learning” 的在线知识蒸馏方法,该方法能够将在线集成和网络协作融入一个统一的框架中,并在 CIFAR-10,CIFAR-100 和 ImageNet 等数据集上得到了验证及优于其他方法的效果。
Jun, 2020
通过独立的教师生成在线知识蒸馏的分离知识,以增加网络之间的差异性和降低模型崩溃的可能性,并采用衰减集成方案来提高教师的监督韧性。通过对 CIFAR-10、CIFAR-100 和 TinyImageNet 的广泛实验验证了我们方法的优越性,并进行了消融研究和进一步分析来证明其有效性。
Dec, 2023
本文介绍了一种相对简单易用的基于在线蒸馏的神经网络训练优化方法,该方法使得我们能够在使用大规模数据集时提升模型精度并提高训练速度,同时在成本较低的情况下显著提高模型的预测可复现性。
Apr, 2018
本文提出了一种双层蒸馏网络框架 OKDDip,其中包括多个辅助对等体和一个领导群体,辅助对等体通过注意力机制获取自己的预测目标,来作为组群内部的目标进行蒸馏学习,然后再将知识传递给领导群体,实现知识转移。实验结果表明,该框架在训练或推理复杂度上不会牺牲性能,相较于现有方法,可以提供更好的蒸馏效果。
Dec, 2019
提出了一种新的知识蒸馏框架,利用神经架构搜索技术和神经网络来学习深度神经网络教师模型以获得高效的学生模型。该方法通过减少教师和学生之间的模型容量差距,从而最大化从教师模型进行蒸馏的收益,我们在基于 CIFAR-100 和 TinyImageNet 的图像分类数据集上进行了广泛的实验,并通过神经架构搜索技术发现新的学生模型,其在准确性和内存使用上都比教师模型表现更好。
Nov, 2019
本文提出了一种有效的集成知识蒸馏方法,该方法能够从多个教师模型学习未标记数据的知识,并据此训练单个学生模型。研究表明,通过考虑不同教师之间的预测差异以及样本难度,可以进一步提高蒸馏的效果。
Apr, 2022
本文提出一种在线对抗蒸馏方法,通过以团体知识来作为动态虚拟教师和有效地捕获图神经网络中的结构变化来同时训练一组图神经网络。在这个方法中,我们通过传输反映图拓扑和节点属性信息的本地知识和反映类预测的全局知识来增强彼此的性能,以提高蒸馏性能。
Dec, 2021
本研究提出了一种集成知识蒸馏方法,可以从不同的教师网络中提取知识,并将其蒸馏成一个紧凑的学生模型,以获得更好的分类准确性和模型泛化性能。实验结果表明,这种集成方法可以显著提高模型的分类准确性和泛化性能,特别是在数据量有限的情况下。
Sep, 2019
研究表明,尽管知识蒸馏有助于学生网络提高推理能力,但通常情况下并不能完全符合教师模型的预测分布,而这往往是由于优化困难所导致的。此外,数据集的细节也影响着知识蒸馏的效果,更符合教师的结果不一定会带来更好的推理能力。
Jun, 2021
本文研究了一种改进模型压缩方法,通过强化学习动态调整知识蒸馏中教师模型的权重,从而提高了学生模型性能,适用于自然语言处理任务。
Dec, 2020