蒸馏 ≈ 提前停止？利用各向异性信息检索收获深度知识对超参数化的神经网络

Oct, 2019

蒸馏 ≈ 提前停止？利用各向异性信息检索收获深度知识对超参数化的神经网络

Distillation $\approx$ Early Stopping? Harvesting Dark Knowledge Utilizing Anisotropic Information Retrieval For Overparameterized Neural Network

PDF

Bin Dong, Jikai Hou, Yiping Lu, Zhihua Zhang

TL;DR本文提出了一种新的理论来解释为什么 depth distillation 的标准实践阻碍了深度神经网络的学习，并提出了一种名为 “self-distillation” 的方法，以在先前的训练时期中从网络中分步提取知识，以避免记忆错误标签，最终在理论和实验方面得出了更好的准确性。

Abstract

distillation is a method to transfer knowledge from one model to another and often achieves higher accuracy with the same capacity. In this paper, we aim to provide a theoretical understanding on what mainly helps with the →

distillation early stopping anisotropic information retrieval self-distillation overparameterized neural networks

发现论文，激发创造

知识蒸馏与自监督相遇

本文介绍了一种新的知识蒸馏方法，使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识，并将其成功地传递到学生网络中，从而实现了在各种基准测试下的表现优异。

Jun, 2020

宽神经网络中的知识蒸馏：风险界限、数据效率和有误导的教师

通过使用教师网络的软输出作为向导进行学生网络的训练，知识蒸馏是模型压缩和知识转移的成功方法之一。本文通过分析一种宽神经网络的知识蒸馏，提出了一种称为数据效率的任务难度度量标准，并证明了在教师完美的情况下，教师软标签的高比例可以很有益处，并且在不完美的教师情况下，硬标签可以修正教师的错误预测，这解释了混合硬标签和软标签的实践。

Oct, 2020

自蒸馏放大 Hilbert 空间中的正则化

本文首次提出了对于自蒸馏现象的理论分析，研究表明，通过逐渐限制基函数的数量，自蒸馏的迭代会通过调整正则化来修改解决方案，而经过几轮的自蒸馏可以减少过拟合，但是进一步的迭代可能导致欠拟合和性能下降。

Feb, 2020

授课老师在蒸馏中的偏差：违抗是否值得？

通过一系列的实验，我们发现知识蒸馏 (distillation) 在教师网络存在低置信度的点的时候，会使得学生网络的置信度更低，而之后引入知识蒸馏 (loss) 会恢复部分性能，同时我们提供了两种理论视角来理解这种现象，作为特征空间的正则化项和梯度去噪器。

Jan, 2023

相似性保持知识蒸馏

本文提出了新型的知识蒸馏损失函数，其通过保留教师神经网络中相似输入的激活模式特征，指导学生神经网络的训练，使其在保留各自的表征空间中，能够准确地保持输入的相似度。实验结果表明了该方法的潜力。

Jul, 2019

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

近期师生学习研究综述

知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法，近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等，致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。

Apr, 2023

自我知识蒸馏正则化类别预测

通过对同标签样本之间的预测分布进行正则化，使得深度神经网络在图像分类任务中显著提高预测能力和置信度表现的一种新的正则化方法。

Mar, 2020

在线蒸馏实现的大规模分布式神经网络训练

本文介绍了一种相对简单易用的基于在线蒸馏的神经网络训练优化方法，该方法使得我们能够在使用大规模数据集时提升模型精度并提高训练速度，同时在成本较低的情况下显著提高模型的预测可复现性。

Apr, 2018

蒸馏为什么有用：一个统计学的视角

本论文从统计角度阐述了知识蒸馏的原理，即让一个简单的 “学生” 模型依据一个复杂的 “教师” 模型得到的标签概率分布进行训练，从而提高性能，并提出了一种新颖的与极端多分类检索技术相关的方法。

May, 2020