BriefGPT.xyz
Ask
alpha
关键词
attention recovery
搜索结果 - 1
EMNLP
理解和改善知识蒸馏,针对大型 Transformer 编码器的量化感知训练
本文提出了两种知识蒸馏方法,即注意力映射和注意力输出损失,并探索了两者的统一,以解决注意力重构的不足。实验结果表明,这两种知识蒸馏方法可以在使用小于 2 位的量化权重时,获得具有先进性的精度。
PDF
2 years ago
Prev
Next