即席本地集成的知识蒸馏

NIPSJun, 2018

Knowledge Distillation by On-the-Fly Native Ensemble

Xu Lan, Xiatian Zhu, Shaogang Gong

TL;DR本文研究使用在线知识蒸馏方法，提出了一种 On-the-fly Native Ensemble (ONE) 策略，通过构建强大的 teacher 来提高目标网络的学习，该方法在多种深度神经网络上性能明显优于其他方法，并具有计算效率优势。

Abstract

knowledge distillation is effective to train small and generalisable network models for meeting the low-memory and fast running requirements. Existing offline distillation methods rely on a strong pre-trained tea

knowledge distillation small and generalisable network online distillation on-the-fly native ensemble image classification

发现论文，激发创造

在线知识蒸馏的同行协作学习

该论文提出了一种名为 “Peer Collaborative Learning” 的在线知识蒸馏方法，该方法能够将在线集成和网络协作融入一个统一的框架中，并在 CIFAR-10，CIFAR-100 和 ImageNet 等数据集上得到了验证及优于其他方法的效果。

Jun, 2020

在线蒸馏中的集成学习解耦知识

通过独立的教师生成在线知识蒸馏的分离知识，以增加网络之间的差异性和降低模型崩溃的可能性，并采用衰减集成方案来提高教师的监督韧性。通过对 CIFAR-10、CIFAR-100 和 TinyImageNet 的广泛实验验证了我们方法的优越性，并进行了消融研究和进一步分析来证明其有效性。

Dec, 2023

在线蒸馏实现的大规模分布式神经网络训练

本文介绍了一种相对简单易用的基于在线蒸馏的神经网络训练优化方法，该方法使得我们能够在使用大规模数据集时提升模型精度并提高训练速度，同时在成本较低的情况下显著提高模型的预测可复现性。

Apr, 2018

在线多样化同行中的知识蒸馏

本文提出了一种双层蒸馏网络框架 OKDDip，其中包括多个辅助对等体和一个领导群体，辅助对等体通过注意力机制获取自己的预测目标，来作为组群内部的目标进行蒸馏学习，然后再将知识传递给领导群体，实现知识转移。实验结果表明，该框架在训练或推理复杂度上不会牺牲性能，相较于现有方法，可以提供更好的蒸馏效果。

Dec, 2019

利用神经架构搜索实现 Oracle 知识蒸馏

提出了一种新的知识蒸馏框架，利用神经架构搜索技术和神经网络来学习深度神经网络教师模型以获得高效的学生模型。该方法通过减少教师和学生之间的模型容量差距，从而最大化从教师模型进行蒸馏的收益，我们在基于 CIFAR-100 和 TinyImageNet 的图像分类数据集上进行了广泛的实验，并通过神经架构搜索技术发现新的学生模型，其在准确性和内存使用上都比教师模型表现更好。

Nov, 2019

统一而有效的集成知识蒸馏

本文提出了一种有效的集成知识蒸馏方法，该方法能够从多个教师模型学习未标记数据的知识，并据此训练单个学生模型。研究表明，通过考虑不同教师之间的预测差异以及样本难度，可以进一步提高蒸馏的效果。

Apr, 2022

图神经网络的在线对抗蒸馏

本文提出一种在线对抗蒸馏方法，通过以团体知识来作为动态虚拟教师和有效地捕获图神经网络中的结构变化来同时训练一组图神经网络。在这个方法中，我们通过传输反映图拓扑和节点属性信息的本地知识和反映类预测的全局知识来增强彼此的性能，以提高蒸馏性能。

Dec, 2021

集成知识蒸馏：学习更强大和高效的网络

本研究提出了一种集成知识蒸馏方法，可以从不同的教师网络中提取知识，并将其蒸馏成一个紧凑的学生模型，以获得更好的分类准确性和模型泛化性能。实验结果表明，这种集成方法可以显著提高模型的分类准确性和泛化性能，特别是在数据量有限的情况下。

Sep, 2019

知识蒸馏真的有效么？

研究表明，尽管知识蒸馏有助于学生网络提高推理能力，但通常情况下并不能完全符合教师模型的预测分布，而这往往是由于优化困难所导致的。此外，数据集的细节也影响着知识蒸馏的效果，更符合教师的结果不一定会带来更好的推理能力。

Jun, 2021

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020