Jan, 2024

知识蒸馏中参数选择的实证研究

TL;DR本文通过大规模实证研究,探讨配置参数选择对知识蒸馏(KD)性能的影响,以及如何在 13 个数据集、4 个 NLP 任务和 3 种学生规模下对学生性能的影响进行评估,最终确定一种在各方面表现良好的配置。