Feb, 2020
MiniLM: 预训练Transformer的深度自注意力蒸馏的任务无关压缩
MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers
TL;DR本文通过对最后一层Transformer模型中的自我注意模块的蒸馏,提出了一种简单有效的压缩大型预训练模型的方法,同时引入了新的“缩放点积”深层自我注意知识,并在这个基础上设计了一个小留学生模型来减少参数量和延迟,实现了对GLUE质量基准测试的有效超越。