BriefGPT.xyz
Ask
alpha
关键词
student-teacher model
搜索结果 - 3
在连续学习中利用测试时间数据控制遗忘
通过利用测试数据进行自我监督,以减少遗忘,并提出了基于梯度稀疏参数更新的简单但有效的学生 - 教师模型,进而显著改善了模型的性能和减少了遗忘。
PDF
17 days ago
KDD
跟随自己的道路:一种渐进式的知识蒸馏方法
本文提出了一种名为 ProKT 的知识蒸馏方法,通过将教师模型的监督信号投影到学生参数空间中,从而在优化过程中实现了更好的局部最优解,实验结果表明,与其他现有的知识蒸馏方法相比,ProKT 在图像和文本数据集上都展现出了卓越的性能。
PDF
3 years ago
AAAI
从内部表示进行知识蒸馏
本文提出了通过知识蒸馏从内部表示来压缩 BERT 这样的大型模型,并阐述了两种从内部表示中提取知识的方法和不同算法的实验。结论是,与仅使用软标签蒸馏相比,从内部表示来蒸馏是更强大的方法。
PDF
5 years ago
Prev
Next