- EMNLP通过知识选择改进预训练语言模型的知识蒸馏
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
- 知识蒸馏的多码本向量量化索引预测
本文提出了一种新的多码本量化方法,将生成教师向量卡尺化成为一个编解码问题,实现了教师模型的向量压缩,以减少模型存储需求。在 LibriSpeech 数据集上,用该方法训练的学生模型能够获得与传统 KD 方法(l1, l2)相当的 ASR 性 - WWWPROD: 稠密检索的渐进式蒸馏
PROD 是一种高效的知识蒸馏方法,包括教师渐进式蒸馏和数据渐进式蒸馏,可用于稠密检索,实验结果表明,PROD 在知识蒸馏方法中达到了最佳性能。
- DiMS: 迭代非自回归变换器的多步精简
本文提出了一种叫做 Distill Multiple Steps 的简单而有效的蒸馏技术,它可以通过使用学生模型和教师模型,使得输出的质量得到提高,且能够减少到达特定翻译质量所需的步骤数。
- QEKD: 基于黑盒模型的无数据查询知识蒸馏
提出了一种新的查询高效知识蒸馏方法(QEKD),可以从黑盒模型 API 中进行查询有效学习,不需要实际数据,并在不同实际数据集上展现出良好性能。
- ECCVCoupleFace:关系对于人脸识别蒸馏很重要
本文提出了一种名为 CoupleFace 的有效人脸识别蒸馏方法,通过引入互动关系蒸馏(MRD)到现有蒸馏框架中,使得学生模型也能够充分利用互动关系知识,并通过丰富实验结果证明了 CoupleFace 在多个基准数据集上的有效性。
- 高效子结构知识蒸馏
该文提出了一种简单有效的方法,通过局部匹配所有子结构的预测结果而非整个输出空间,将知识从教师模型传递给其学生模型,较之现有方法在训练效率方面相对更高,并鼓励学生模型更好地模拟教师模型的内部行为。该方法在两个结构化预测任务上的实验表明,可以胜 - ICCV基于知识驱动的狄利克雷过程的终身无限混合模型
本文通过理论分析计算模型估计生成的随机分布与目标数据分布之间的差异距离,推导了生命周期学习模型的风险范围,提出了新的生命周期学习方法 Lifelong Infinite Mixture(LIMix)模型,通过门控机制自适应地扩展其网络结构以 - 利用多个二进制标记的数据集进行多器官分割
本文提出了一种多器官分割模型的学习方法 -- 多教师单学生知识蒸馏(MS-KD)框架,并提出了一种区域监督方法,在多个单器官数据集上进行了广泛实验,证明了该框架的有效性。
- CVPR重访知识蒸馏:一个继承和探索框架
本文提出了一种新颖的知识蒸馏策略 -- 继承与探索知识蒸馏框架 (IE-KD),它将学生模型分成两个部分,继承和探索。继承部分通过相似度损失将已有的知识从教师模型转移到学生模型,而探索部分通过不相似度损失鼓励学生模型学习与继承部分不同的特征 - 知识蒸馏作为半参数推断
使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的 plug-in 估计值,引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响,为标准蒸馏的预测误差提供了新的保证,并在表格式和图像数据上进行实 - CVPR互补关系对比蒸馏
本研究提出一种基于对比关系的知识蒸馏方法 CRCD,通过建立标定点并计算学生和教师关系的差异,有效地将结构性知识从教师模型转移到学生模型中,从而同时蒸馏出样本表示和样本之间的关系。实验证明了该方法的有效性。
- CVPR目标检测的通用实例蒸馏
利用 discriminative instances,我们提出了一个叫做 general instance distillation(GID)的检测任务中的知识蒸馏方法,其学生模型在不同的检测框架中都实现了显著的 AP 改进,甚至在 CO - 深度学习中的知识蒸馏及其应用
通过使用知识蒸馏技术,从大模型 (教师模型) 中提取信息,训练小模型 (学生模型) 可以解决将大型深度学习模型部署在移动设备和嵌入式设备上的问题。本文提出了一种基于蒸馏度量的比较不同知识蒸馏算法性能的新指标,并通过对知识蒸馏技术应用于深度学 - AAAI深度交互学习的重加权方法
本研究提出了一种改进的数据重新加权算法,通过将学生模型的内部状态提供给教师模型并使用元梯度一起训练,以增强学生模型训练的自适应样本权重,并在图像分类和神经机器翻译实验中证明了其显著的改进效果。
- 蒸馏为什么有用:一个统计学的视角
本论文从统计角度阐述了知识蒸馏的原理,即让一个简单的 “学生” 模型依据一个复杂的 “教师” 模型得到的标签概率分布进行训练,从而提高性能,并提出了一种新颖的与极端多分类检索技术相关的方法。
- 子类蒸馏
通过用小的 “学生” 模型来匹配正确类别的概率,将大 “教师” 神经网络的大部分泛化能力转移到小模型上,训练教师将每个类别分成多个子类别可改进转移,对于有已知自然子类别及未知子类别的数据集,子类别蒸馏可以使学生更快速、更准确地学习。
- 理解和改善知识蒸馏
本研究探讨了知识蒸馏的三个不同层次 —— 宇宙,领域以及实例,发现这三个因素在知识蒸馏中起着重要作用,并在大量实证研究基础上,诊断了某些知识蒸馏应用失败的情况。
- CVPR从搜索到精炼:珍珠遍布各处,却不见双眸
该论文提出一种基于神经网络结构搜索的知识蒸馏模型 AKD,可以将老师模型的知识蒸馏到学生模型的参数和结构中。实验表明 AKD 方法比传统的 NAS 和 KD 方法更有效,在 ImageNet 分类任务和其他任务中都能取得最先进的结果。
- 准备教材:利用更好的监督改进知识蒸馏
本研究提出了两种新颖的方法,知识调整(KA)和动态温度蒸馏(DTD),用于惩罚错误监督并改善学生模型,实验表明该方法在各种评测数据集上,以及与其他基于知识蒸馏的方法相结合时,都能获得鼓舞人心的表现。