BriefGPT.xyz
Ask
alpha
关键词
correlation-based loss
搜索结果 - 1
来自更强大教师的知识蒸馏
本文介绍了一种名为 DIST 的方法,它可以更好地从一个更强的教师模型中进行知识蒸馏,通过保留教师和学生之间的预测关系,提出了基于相关损失的方法,从而实现了最先进的性能。
PDF
2 years ago
Prev
Next