Jan, 2024
知识蒸馏中参数选择的实证研究
An Empirical Investigation into the Effect of Parameter Choices in Knowledge Distillation
Md Arafat Sultan, Aashka Trivedi, Parul Awasthy, Avirup Sil
TL;DR本文通过大规模实证研究,探讨配置参数选择对知识蒸馏(KD)性能的影响,以及如何在 13 个数据集、4 个 NLP 任务和 3 种学生规模下对学生性能的影响进行评估,最终确定一种在各方面表现良好的配置。