Feb, 2020
MiniLM: 预训练 Transformer 的深度自注意力蒸馏的任务无关压缩
MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers
Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang...
TL;DR本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏,提出了一种简单有效的压缩大型预训练模型的方法,同时引入了新的 “缩放点积” 深层自我注意知识,并在这个基础上设计了一个小留学生模型来减少参数量和延迟,实现了对 GLUE 质量基准测试的有效超越。