退火知识蒸馏
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
Jan, 2023
本文研究知识迁移领域的另一种方法:Born-Again Networks (BANs),将学生的参数与老师的相同, 来达到比老师更好的性能表现。在计算机视觉和语言建模任务中, BANs 表现出甚至比老师高出许多的性能得分,并且在各种规模的学生中,将知识从 DenseNets 到 ResNets 和反向传输,都显示出明显的优势
May, 2018
本研究提出了两种新颖的方法,知识调整(KA)和动态温度蒸馏(DTD),用于惩罚错误监督并改善学生模型,实验表明该方法在各种评测数据集上,以及与其他基于知识蒸馏的方法相结合时,都能获得鼓舞人心的表现。
Nov, 2019
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
本文提出了一种元知识蒸馏(MKD)方法,利用可学习的元温度参数进行元学习,通过适应学习目标的梯度自适应地调整元参数以解决知识蒸馏(KD)的退化问题,从而在不同数据集规模、不同网络和不同数据扩增类型上实现了与当下最优秀方法相当的性能表现。
Feb, 2022
本文研究神经机器翻译中知识蒸馏的技术,发现知识来源于教师的 top-1 预测,进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏,包含了层次排序损失和迭代蒸馏等措施,实验证明 TIE-KD 优于基准模型,具有更高的潜力和泛化性能。
May, 2023