本文挑战了使用强大的 teacher model 教授弱 student model 的共识,详细阐述了 KD 和 label smoothing regularization 之间的关系,提出了 Teacher-free Knowledge Distillation(Tf-KD)框架,通过自学和手动设计正则化分布,实现了与正常 KD 相媲美的性能。
Sep, 2019
该论文通过大量实验、分析和案例研究,发现并验证了系统性扩散是理解和解决标签平滑和知识蒸馏之间互相矛盾的发现的关键概念,从而推荐使用经过标签平滑的教师模型以及低温度传输来获得高性能的学生模型。
Jun, 2022
本研究探讨了知识蒸馏的三个不同层次 —— 宇宙,领域以及实例,发现这三个因素在知识蒸馏中起着重要作用,并在大量实证研究基础上,诊断了某些知识蒸馏应用失败的情况。
Feb, 2020
本文揭示了知识蒸馏方法的内在机制,对应于一种新型的随机方差缩减机制。通过在线性模型和深度线性模型的背景下实现这一方法,表明知识蒸馏可以降低随机梯度噪声,从而减少模型复杂度,但是需要进行参数化的调整。
May, 2023
该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
Apr, 2024
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
本文提出了一种新的知识蒸馏方法,即分层蒸馏策略,用于解决推荐系统中已有的知识蒸馏方法中存在的推荐偏差问题。该方法通过对热门物品进行分层处理,提取每个组中的排名知识,用于监督学生模型的学习,避免了推荐结果的不准确和不公平。
Nov, 2022
使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的 plug-in 估计值,引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响,为标准蒸馏的预测误差提供了新的保证,并在表格式和图像数据上进行实证验证,观察到与知识蒸馏增强相关的一致改进。
Apr, 2021
本研究提出了两种新颖的方法,知识调整(KA)和动态温度蒸馏(DTD),用于惩罚错误监督并改善学生模型,实验表明该方法在各种评测数据集上,以及与其他基于知识蒸馏的方法相结合时,都能获得鼓舞人心的表现。
Nov, 2019
该研究旨在研究标签正则化技术在 NLP 中的使用以及它是否需要老师网络进行指导,经过对 BERT、RoBERTa 和 GPT 等 PLMs 进行 600 多次试验,发现预训练本身已经具有正则化的作用,因此在 fine-tuning 时,添加额外的标签正则化并不必要。
May, 2022