BriefGPT.xyz
大模型
Ask
alpha
关键词
capacity-gap problem
搜索结果 - 2
通过迁移学习能力来改善知识蒸馏
本文介绍了一种名为 SLKD 的新方法,用于解决现有知识蒸馏方法中存在的教师 - 学生方法忽视教师和学生网络学习能力差异所导致的容量差距问题。
PDF
a year ago
Pro-KD:跟随老师的足迹进行渐进式蒸馏
本文介绍了一种名为 Progressive Knowledge Distillation 的技术,通过模仿教师模型的训练轨迹,改善了知识蒸馏中的 “容量差距问题”(capacity-gap problem)和 “检查点搜索问题”(check
→
PDF
3 years ago
Prev
Next