知识蒸馏 ≈ 标签平滑：事实还是谬误？

Jan, 2023

知识蒸馏 ≈ 标签平滑：事实还是谬误？

Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy?

Md Arafat Sultan

TL;DR本文探讨知识蒸馏和标签平滑之间的关系，实验结果表明在大多数情况下，它们所驱动的模型不确定性完全相反，知识蒸馏是一种直接从老师模型传递知识的方法。

Abstract

Contrary to its original interpretation as a facilitator of knowledge transfer from one model to another, some recent studies have suggested that knowledge distillation (KD) is instead a form of regularization. P

knowledge distillation label smoothing regularization text classification predictive uncertainty

发现论文，激发创造

通过标签平滑正则化重新审视知识蒸馏

本文挑战了使用强大的 teacher model 教授弱 student model 的共识，详细阐述了 KD 和 label smoothing regularization 之间的关系，提出了 Teacher-free Knowledge Distillation（Tf-KD）框架，通过自学和手动设计正则化分布，实现了与正常 KD 相媲美的性能。

Sep, 2019

重新思考标签平滑和知识蒸馏的兼容性：缺失了什么？

该论文通过大量实验、分析和案例研究，发现并验证了系统性扩散是理解和解决标签平滑和知识蒸馏之间互相矛盾的发现的关键概念，从而推荐使用经过标签平滑的教师模型以及低温度传输来获得高性能的学生模型。

Jun, 2022

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

知识蒸馏在部分方差降低方面发挥作用

本文揭示了知识蒸馏方法的内在机制，对应于一种新型的随机方差缩减机制。通过在线性模型和深度线性模型的背景下实现这一方法，表明知识蒸馏可以降低随机梯度噪声，从而减少模型复杂度，但是需要进行参数化的调整。

May, 2023

通过标签修订和数据选择改进知识蒸馏

该论文提出了一种解决知识蒸馏中错误监督的问题的方法，即通过标签修正纠正教师模型的错误预测，并引入数据选择技术以减少错误监督的影响，实验证明该方法的有效性，并表明该方法可以与其他蒸馏方法相结合，提高其性能。

Apr, 2024

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

无偏知识蒸馏推荐

本文提出了一种新的知识蒸馏方法，即分层蒸馏策略，用于解决推荐系统中已有的知识蒸馏方法中存在的推荐偏差问题。该方法通过对热门物品进行分层处理，提取每个组中的排名知识，用于监督学生模型的学习，避免了推荐结果的不准确和不公平。

Nov, 2022

知识蒸馏作为半参数推断

使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的 plug-in 估计值，引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响，为标准蒸馏的预测误差提供了新的保证，并在表格式和图像数据上进行实证验证，观察到与知识蒸馏增强相关的一致改进。

Apr, 2021

准备教材：利用更好的监督改进知识蒸馏

本研究提出了两种新颖的方法，知识调整（KA）和动态温度蒸馏（DTD），用于惩罚错误监督并改善学生模型，实验表明该方法在各种评测数据集上，以及与其他基于知识蒸馏的方法相结合时，都能获得鼓舞人心的表现。

Nov, 2019

针对预训练语言模型的标签正则化微调研究

该研究旨在研究标签正则化技术在 NLP 中的使用以及它是否需要老师网络进行指导，经过对 BERT、RoBERTa 和 GPT 等 PLMs 进行 600 多次试验，发现预训练本身已经具有正则化的作用，因此在 fine-tuning 时，添加额外的标签正则化并不必要。

May, 2022