利用不确定性感知混合进行计算高效的知识蒸馏
提出一种基于特征的知识不确定性蒸馏范式,能够与现有的蒸馏方法无缝集成,通过蒙特卡洛 dropout 技术引入知识不确定性,提高学生模型对潜在知识的探索能力,并在目标检测任务中获得有效性验证。
Jun, 2024
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
Jun, 2020
该研究提出了一种自适应分配逐样本可靠度的方法,以每个教师的预测可信度来稳定知识转移过程,并结合中间层来提高学生成绩,在不同的教师 - 学生架构下,优于所有其他现有方法。
Dec, 2021
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
Nov, 2020
本文提出了一种黑盒少样本知识蒸馏方法,使用 MixUp 和条件变分自编码器生成多样的合成图像进行训练,显著优于最新 SOTA 的少 / 零样本 KD 方法用于图像分类任务。
Jul, 2022
本文提出一种方法,在通过知识蒸馏传递信息来从教师网络中提高浅层学生网络性能的同时,生成一个校准的学生模型,该方法依赖于数据增强技术的融合并扩展了传统知识蒸馏,因此可用于关系知识蒸馏和对比表示蒸馏,并在 CIFAR-10,CIFAR-100,CINIC-10 和 TinyImageNet 等各种数据集上进行了验证。
Feb, 2023
本文提出了一种有效的集成知识蒸馏方法,该方法能够从多个教师模型学习未标记数据的知识,并据此训练单个学生模型。研究表明,通过考虑不同教师之间的预测差异以及样本难度,可以进一步提高蒸馏的效果。
Apr, 2022
知识蒸馏是从预训练教师网络中学习轻量级学生网络的方法,但现有方法在原始训练数据不可用时往往不可行。为解决这个问题,该文提出了一种名为 “不同分布知识蒸馏” 的新方法(KD$^{3}$),其包括三个组件:从互联网收集训练实例,通过教师网络和学生网络的综合预测动态选择有用的训练实例;对齐两个网络的特征和分类器参数进行知识记忆;新建一个对比学习块以生成具有新分布的扰动数据用于实例对齐。该方法在不同基准数据集上的实验表明,KD$^{3}$ 能够超越现有的无数据知识蒸馏方法。
Jul, 2023
通过自知力蒸馏方法,有效地解决了语言模型在面对多义样本时过于自信地错误预测单一标签的问题,并通过重新校准置信度,在生成更好的标签分布上取得了显著的改进。同时,该方法相对于现有方法在训练模型时更高效,无需额外的训练过程来完善标签分布。
Jun, 2024