重新审视无数据知识蒸馏及其受污染教师
无数据知识蒸馏方法 (TA-DFKD)通过为生成器分配宽松的专家角色,而非严格的监督者角色,以更健壮和稳定的性能,实现了在各种教师模型下的蒸馏,并超越了现有的无数据知识蒸馏方法。
Feb, 2024
本研究提出了一个基于多元正态分布的数据自由知识蒸馏方法,该方法从过度参数化神经网络中模拟中间特征空间并利用软目标标签生成伪样本以作为转换集。使用这些合成的转移集训练多个学生网络,表现出与使用原始训练集和其他无数据知识蒸馏方法训练的网络相当的竞争性能。
Apr, 2021
无数据的知识蒸馏 (KD) 通过使用 OpenGL 图像和数据增强等方法来训练学生网络,达到了多个数据集 / 网络的最新结果,并且比现有的生成器基于无数据 KD 方法更为稳定。
Oct, 2023
提出了一种新的查询高效知识蒸馏方法(QEKD),可以从黑盒模型 API 中进行查询有效学习,不需要实际数据,并在不同实际数据集上展现出良好性能。
May, 2022
RobustKD 是基于特征差异的鲁棒知识蒸馏方法,通过压缩模型并减少学生模型和教师模型之间的特征差异,实现了学生模型的性能和后门缓解的双重目标。
Jun, 2024
通过在训练数据中结合稀疏输出与对抗样本,以增强教师模型对学生模型的防御,我们的研究引入了一种保护其输出的教师模型的方法,从而减少了对整体性能的影响。
Mar, 2024
本文提出并研究了一种名为 Nasty Teacher 的概念,即一种特殊训练的教师网络,可以显著降低通过模仿它学到的学生模型的性能。我们提出了一个简单而有效的算法来构建 Nasty Teacher,称为自我破坏知识蒸馏,通过对数个数据集的实验,证明了这种方法对于标准的 KD 和无数据 KD 都是有效的,首次为模型所有者提供了所需的 KD 免疫力。
May, 2021
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出了面向少教师推理知识蒸馏(FTI KD)的方法,旨在减少对教师模型推理的依赖。本文观察到,当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感,提出了比较式知识蒸馏(CKD),它鼓励学生模型理解教师模型对样本解释的微妙差异,并为学生提供额外的学习信号,而无需进行额外的教师调用。此外,我们将 CKD 原理扩展到样本组,从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明,CKD 始终优于最先进的数据增强和知识蒸馏技术。
Nov, 2023