- ECCVCoupleFace:关系对于人脸识别蒸馏很重要
本文提出了一种名为 CoupleFace 的有效人脸识别蒸馏方法,通过引入互动关系蒸馏(MRD)到现有蒸馏框架中,使得学生模型也能够充分利用互动关系知识,并通过丰富实验结果证明了 CoupleFace 在多个基准数据集上的有效性。
- ECCV基于预测引导的稠密物体检测蒸馏
本文提出了一种名为 PGD 的预测引导蒸馏方法,该方法可以识别教师模型的最具信息量的特征,从而在小型、廉价的检测模型中提高检测性能。使用 ResNet-101 和 ResNet-50 作为教师和学生骨架,在 COCO 和 CrowdHuma - 高效子结构知识蒸馏
该文提出了一种简单有效的方法,通过局部匹配所有子结构的预测结果而非整个输出空间,将知识从教师模型传递给其学生模型,较之现有方法在训练效率方面相对更高,并鼓励学生模型更好地模拟教师模型的内部行为。该方法在两个结构化预测任务上的实验表明,可以胜 - CVPRTeachAugment: 利用教师知识优化数据增强
该研究提出了一种名为 TeachAugment 的数据增强优化方法,使用对抗策略和教师模型来搜索增强,简化搜索空间设计并允许使用梯度方法更新数据增强。在图像分类、语义分割和无监督表示学习任务的实验中,TeachAugment 优于现有方法。
- ACL知识蒸馏用于质量评估
为了调整预先训练的质量评估模型的体积,将强质量评估教师模型的知识直接转移到体积更小的模型中,并结合数据增强,得到了具有 8 倍更少参数的轻量级质量评估模型。
- Kaizen: 利用指数移动平均法不断提升教师的半监督语音识别技能
介绍了使用 Kaizen 框架的半监督语音识别方法,该方法利用一个不断更新的教师模型为 ASR 生成伪标签,可用于不同培训准则,对于大规模的真实世界无监督公共英语和意大利语视频表现出 10% 以上的相对词误率(WER)降低。
- 知识蒸馏真的有效么?
研究表明,尽管知识蒸馏有助于学生网络提高推理能力,但通常情况下并不能完全符合教师模型的预测分布,而这往往是由于优化困难所导致的。此外,数据集的细节也影响着知识蒸馏的效果,更符合教师的结果不一定会带来更好的推理能力。
- 知识蒸馏作为半参数推断
使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的 plug-in 估计值,引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响,为标准蒸馏的预测误差提供了新的保证,并在表格式和图像数据上进行实 - CVPR互补关系对比蒸馏
本研究提出一种基于对比关系的知识蒸馏方法 CRCD,通过建立标定点并计算学生和教师关系的差异,有效地将结构性知识从教师模型转移到学生模型中,从而同时蒸馏出样本表示和样本之间的关系。实验证明了该方法的有效性。
- 深度学习中的知识蒸馏及其应用
通过使用知识蒸馏技术,从大模型 (教师模型) 中提取信息,训练小模型 (学生模型) 可以解决将大型深度学习模型部署在移动设备和嵌入式设备上的问题。本文提出了一种基于蒸馏度量的比较不同知识蒸馏算法性能的新指标,并通过对知识蒸馏技术应用于深度学 - AAAI深度交互学习的重加权方法
本研究提出了一种改进的数据重新加权算法,通过将学生模型的内部状态提供给教师模型并使用元梯度一起训练,以增强学生模型训练的自适应样本权重,并在图像分类和神经机器翻译实验中证明了其显著的改进效果。
- 蒸馏为什么有用:一个统计学的视角
本论文从统计角度阐述了知识蒸馏的原理,即让一个简单的 “学生” 模型依据一个复杂的 “教师” 模型得到的标签概率分布进行训练,从而提高性能,并提出了一种新颖的与极端多分类检索技术相关的方法。
- 理解和改善知识蒸馏
本研究探讨了知识蒸馏的三个不同层次 —— 宇宙,领域以及实例,发现这三个因素在知识蒸馏中起着重要作用,并在大量实证研究基础上,诊断了某些知识蒸馏应用失败的情况。
- CVPR从搜索到精炼:珍珠遍布各处,却不见双眸
该论文提出一种基于神经网络结构搜索的知识蒸馏模型 AKD,可以将老师模型的知识蒸馏到学生模型的参数和结构中。实验表明 AKD 方法比传统的 NAS 和 KD 方法更有效,在 ImageNet 分类任务和其他任务中都能取得最先进的结果。
- CVPR通过标签平滑正则化重新审视知识蒸馏
本文挑战了使用强大的 teacher model 教授弱 student model 的共识,详细阐述了 KD 和 label smoothing regularization 之间的关系,提出了 Teacher-free Knowledg - 基于教师的聚类对齐用于无监督领域适应
本文提出了一种利用教师模型进行无监督领域自适应的聚类对齐方法,其针对源域和目标域的判别性聚类结构进行对齐,并在多种无监督领域自适应场景下实现了最先进的效果。
- KDD排名蒸馏:学习高性能紧凑排名模型的推荐系统
在学习排名问题时,我们提出了一种基于知识蒸馏的技术,称为 RD,通过使用更小的模型在保持模型性能的同时提高在线推理的效率,该技术在公共数据集和推荐模型上实现了旨在设计的目的。