Nov, 2022
减少、重用、回收:通过蒸馏提高训练效率
Reduce, Reuse, Recycle: Improving Training Efficiency with Distillation
Cody Blakeney, Jessica Zosa Forde, Jonathan Frankle, Ziliang Zong, Matthew L. Leavitt
TL;DR本文研究了如何利用蒸馏来提高深度学习模型的训练效率,实验发现,蒸馏在 ResNet-50 和 BERT 模型上可以提高训练速度,尤其是在 BERT 模型初期进行蒸馏可以取得最佳效果。此外,通过对蒸馏方法的一些优化可以进一步提高蒸馏的效率。