BriefGPT.xyz
Ask
alpha
关键词
output distribution transfer
搜索结果 - 1
EMNLP
压缩转换器语言模型的任务无关蒸馏方法的比较分析
通过多项实验研究,我们发现基于 MiniLMv2 的 Multi-Head Attention 转移是蒸馏中更优选的方法,并解释了其成功的可能原因。此外,我们还发现基于 Hidden State 转移的方法在精妙的层映射策略下依然是竞争性的
→
PDF
9 months ago
Prev
Next