尊重知识蒸馏中的转移差距
基于知识蒸馏,提出了一种新的单阶段方法 “不同领域之间的直接蒸馏”(4Ds),通过可学习的适配器和融合 - 激活机制,实现了从教师网络到学生网络的跨领域知识转移,取得了可靠的学生网络性能并超过了现有方法。
Jan, 2024
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
Jan, 2023
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
本文提出了一种新的知识蒸馏方法(GKD),通过引入梯度对齐这一重要的知识源,以提高预训练语言模型的学生模型的性能和可解释性。实验结果表明,使用 GKD 比先前的知识蒸馏方法效果更好。
Nov, 2022
知识蒸馏是从预训练教师网络中学习轻量级学生网络的方法,但现有方法在原始训练数据不可用时往往不可行。为解决这个问题,该文提出了一种名为 “不同分布知识蒸馏” 的新方法(KD$^{3}$),其包括三个组件:从互联网收集训练实例,通过教师网络和学生网络的综合预测动态选择有用的训练实例;对齐两个网络的特征和分类器参数进行知识记忆;新建一个对比学习块以生成具有新分布的扰动数据用于实例对齐。该方法在不同基准数据集上的实验表明,KD$^{3}$ 能够超越现有的无数据知识蒸馏方法。
Jul, 2023
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出了面向少教师推理知识蒸馏(FTI KD)的方法,旨在减少对教师模型推理的依赖。本文观察到,当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感,提出了比较式知识蒸馏(CKD),它鼓励学生模型理解教师模型对样本解释的微妙差异,并为学生提供额外的学习信号,而无需进行额外的教师调用。此外,我们将 CKD 原理扩展到样本组,从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明,CKD 始终优于最先进的数据增强和知识蒸馏技术。
Nov, 2023
本文提出了一种新的知识蒸馏方法,通过建模教师模型各层之间的信息流,训练学生模型来模拟信息流。该方法通过适当的监督方案解决了训练过程中不同阶段的监管问题,并设计和训练了一个适当的辅助教师模型,作为一种代理模型,能够 “解释” 教师的工作方式给学生。实验证明该方法对于四个图像数据集和多种不同的评估设置均有效。
May, 2020
本文提出了一种新颖的知识蒸馏策略 -- 继承与探索知识蒸馏框架 (IE-KD),它将学生模型分成两个部分,继承和探索。继承部分通过相似度损失将已有的知识从教师模型转移到学生模型,而探索部分通过不相似度损失鼓励学生模型学习与继承部分不同的特征表示,实验结果表明,IE-KD 能够提高学生网络的表现,达到 SOTA 水平。
Jul, 2021
本研究提出了一种名为 Residual Knowledge Distillation (RKD) 的知识蒸馏方法,通过引入辅助器来进一步提炼知识,从而解决现有方法由于学习容量间的巨大差距而导致的性能下降问题,并在 CIFAR-100 和 ImageNet 等流行分类数据集上取得优异的成果,超过了现有方法的最新水平。
Feb, 2020