BriefGPT.xyz
Ask
alpha
关键词
pilot update mechanism
搜索结果 - 1
ACL
BERT 学会教学:元学习的知识蒸馏
本研究提出了用元学习结合知识蒸馏的方法(MetaDistil),可以在固定教师网络期间更好地向学生网络转移知识。在多个实验基准上,MetaDistil 可以比传统的知识蒸馏算法产生更显著的改进,并且对不同的学生容量和超参数的选择不太敏感,有
→
PDF
3 years ago
Prev
Next