Nov, 2022

减少、重用、回收:通过蒸馏提高训练效率

TL;DR本文研究了如何利用蒸馏来提高深度学习模型的训练效率,实验发现,蒸馏在 ResNet-50 和 BERT 模型上可以提高训练速度,尤其是在 BERT 模型初期进行蒸馏可以取得最佳效果。此外,通过对蒸馏方法的一些优化可以进一步提高蒸馏的效率。