Sep, 2019
TinyBERT:自然语言理解的BERT蒸馏模型
TinyBERT: Distilling BERT for Natural Language Understanding
TL;DR通过新的Transformer蒸馏方法和两阶段TinyBERT学习框架,可以有效地将大型BERT中的知识转移到小型TinyBERT,从而在维持准确性的同时加速推理和减少模型大小,TinyBERT在短语匹配任务的GLUE数据集上取得了96.8%以上的性能,模型大小约为BERT的1/8,推理速度约为BERT的1/10。