知识流：超越你的教师

ICLRApr, 2019

Knowledge Flow: Improve Upon Your Teachers

Iou-Jen Liu, Jian Peng, Alexander G. Schwing

TL;DR通过知识流的方式将多个深度网络（教师）的知识传递给新的深度网络模型（学生），解决了在新任务中选择哪个网络或为微调新模型选择哪个网络的初始化的问题，并在监督和强化学习任务中提供比微调和其他知识交流方法更好的表现。

Abstract

A zoo of deep nets is available these days for almost any given task, and it is increasingly unclear which net to start with when addressing a new task, or which net to use as an initialization for fine-tuning a new model. To address this issue, in this paper, we develop →

deep nets knowledge flow teachers student supervised and reinforcement learning

发现论文，激发创造

代际知识蒸馏：更具宽容性的教师教育更好的学生

本文从严格性控制角度研究了深度神经网络的教师网络和学生网络的优化问题。通过针对教师网络训练中的宽松性进行优化，使得学生网络在学习过程中更容易获得跨类别相似性信息，从而在 CIFAR100 和 ILSVRC2012 等数据集的图像分类任务中取得更高的分类准确率。

May, 2018

FitNets: 纤细深度神经网络的提示

本文提出了一种基于知识蒸馏的深度神经网络训练方法，通过使用教师网络的中间表示学习，允许训练比教师更深而且更窄的学生网络，并引入了额外参数来进行深浅网络之间的映射，以实现降低参数以提高运行速度或提升性能的目的。在 CIFAR-10 数据集上的实验表明，这种方法能够在参数规模几乎是教师网络的十分之一的条件下，取得比教师网络更好的性能。

Dec, 2014

针对知识蒸馏的学生友好型教师网络学习

本文提出一种新颖的知识蒸馏方法，该方法旨在学习对学生友好的教师模型以实现知识传递，并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。

Feb, 2021

信息流建模的异质知识蒸馏

本文提出了一种新的知识蒸馏方法，通过建模教师模型各层之间的信息流，训练学生模型来模拟信息流。该方法通过适当的监督方案解决了训练过程中不同阶段的监管问题，并设计和训练了一个适当的辅助教师模型，作为一种代理模型，能够 “解释” 教师的工作方式给学生。实验证明该方法对于四个图像数据集和多种不同的评估设置均有效。

May, 2020

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

教辅辅助下的知识蒸馏改进

本论文针对深度神经网络过于庞大以至于不能部署在移动设备等边缘设备的问题，提出了一种基于知识蒸馏的网络压缩方法。然而，该论文表明，如果学生网络与教师网络之间的差距太大，那么知识蒸馏的性能会下降；为此，该论文提出了一种多步知识蒸馏的方法，通过使用一个中等大小的网络（即教师助手）来弥补学生与教师之间的差距，并通过对 CIFAR-10,100 和 ImageNet 数据集进行广泛的实验证明了该方法的有效性。

Feb, 2019

多教师助理指导的密集知识蒸馏

本文提出一种基于多个 teacher assistant 的密集引导知识蒸馏方法，通过逐渐减小模型大小有效地弥合 teacher 和 student 之间的巨大差距，实现了对 student 的更高效学习，并在 CIFAR-10、CIFAR-100 和 ImageNet 上的多个 backbone 架构中取得了显著的性能提升。

Sep, 2020

综合过滤知识：从多任务教师中学习定制化学生

该论文提出了一种基于预训练卷积神经网络的教师 - 学生学习方法，通过多个教师的知识筛选和层次式训练策略，将目标学生网络定制到不同任务，从而在多项基准测试中实现了优异结果。

May, 2019

跟随自己的道路：一种渐进式的知识蒸馏方法

本文提出了一种名为 ProKT 的知识蒸馏方法，通过将教师模型的监督信号投影到学生参数空间中，从而在优化过程中实现了更好的局部最优解，实验结果表明，与其他现有的知识蒸馏方法相比，ProKT 在图像和文本数据集上都展现出了卓越的性能。

Jul, 2021

通过特征嵌入学习学生网络

本文提出了一种基于特征嵌入的新型教师 - 学生模型，使用局部保持损失函数优化低维特征生成，从而避免引入额外参数，通过实验证明该方法计算和存储复杂度均优于现有教师 - 学生模型。

Dec, 2018