Nov, 2023
知識蒸餾中的遺失
What is Lost in Knowledge Distillation?
Manas Mohanty, Tanya Roosta, Peyman Passban
TL;DR深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移,本研究通过实验探究了蒸馏过程对于信息损失的影响,并提出了一种优化配置方法。
Abstract
deep neural networks (DNNs) have improved NLP tasks significantly, but
training and maintaining such networks could be costly. model compression
techniques, such as, →
发现论文,激发创造
相似性保持知识蒸馏
本文提出了新型的知识蒸馏损失函数,其通过保留教师神经网络中相似输入的激活模式特征,指导学生神经网络的训练,使其在保留各自的表征空间中,能够准确地保持输入的相似度。实验结果表明了该方法的潜力。
Jul, 2019
利用神经网络中的反向传播知识改进知识蒸馏
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
Jan, 2023
近期师生学习研究综述
知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法,近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等,致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。
Apr, 2023
知识蒸馏对迁移学习的影响
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
退火知识蒸馏
本文介绍了一种名为 Annealing-KD 的改进型知识蒸馏方法,通过渐进式地提供教师模型提供的丰富信息来训练更小的学生模型,从而使得知识蒸馏方法在训练力度较大的学生模型时更有效。作者在不同的任务上进行了实验验证,包括图像分类和自然语言推理等。
Apr, 2021
神经机器翻译知识蒸馏理解与改进探究
本文研究神经机器翻译中知识蒸馏的技术,发现知识来源于教师的 top-1 预测,进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏,包含了层次排序损失和迭代蒸馏等措施,实验证明 TIE-KD 优于基准模型,具有更高的潜力和泛化性能。
May, 2023