知识蒸馏在部分方差降低方面发挥作用

May, 2023

知识蒸馏在部分方差降低方面发挥作用

Knowledge Distillation Performs Partial Variance Reduction

Mher Safaryan, Alexandra Peste, Dan Alistarh

TL;DR本文揭示了知识蒸馏方法的内在机制，对应于一种新型的随机方差缩减机制。通过在线性模型和深度线性模型的背景下实现这一方法，表明知识蒸馏可以降低随机梯度噪声，从而减少模型复杂度，但是需要进行参数化的调整。

Abstract

knowledge distillation is a popular approach for enhancing the performance of ``student'' models, with lower representational capacity, by taking advantage of more powerful ``teacher'' models. Despite its apparent simplicity and widespread use, the underlying mechanics behind

knowledge distillation student models teacher models optimization perspective variance reduction

发现论文，激发创造

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

知识蒸馏作为半参数推断

使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的 plug-in 估计值，引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响，为标准蒸馏的预测误差提供了新的保证，并在表格式和图像数据上进行实证验证，观察到与知识蒸馏增强相关的一致改进。

Apr, 2021

知识蒸馏 ≈ 标签平滑：事实还是谬误？

本文探讨知识蒸馏和标签平滑之间的关系，实验结果表明在大多数情况下，它们所驱动的模型不确定性完全相反，知识蒸馏是一种直接从老师模型传递知识的方法。

Jan, 2023

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

残差知识蒸馏

本研究提出了一种名为 Residual Knowledge Distillation (RKD) 的知识蒸馏方法，通过引入辅助器来进一步提炼知识，从而解决现有方法由于学习容量间的巨大差距而导致的性能下降问题，并在 CIFAR-100 和 ImageNet 等流行分类数据集上取得优异的成果，超过了现有方法的最新水平。

Feb, 2020

关系知识蒸馏

该论文提出了关系知识蒸馏方法（RKD），用于将数据示例之间的相互关系转移给学生模型，进而提高其在度量学习等任务中的性能，尤其是在标准基准数据集上取得了超越其老师的表现。

Apr, 2019

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

基于特征方差的鲁棒知识蒸馏：抵抗带后门的教师模型

RobustKD 是基于特征差异的鲁棒知识蒸馏方法，通过压缩模型并减少学生模型和教师模型之间的特征差异，实现了学生模型的性能和后门缓解的双重目标。

Jun, 2024