EMNLPOct, 2023

压缩转换器语言模型的任务无关蒸馏方法的比较分析

TL;DR通过多项实验研究,我们发现基于 MiniLMv2 的 Multi-Head Attention 转移是蒸馏中更优选的方法,并解释了其成功的可能原因。此外,我们还发现基于 Hidden State 转移的方法在精妙的层映射策略下依然是竞争性的基准,而 Output Distribution 转移一直落后于其他方法。研究结果帮助我们为延迟关键应用部署高效且有效的学生模型。