Oct, 2019

DistilBERT:BERT的简化版——更小、更快、更便宜、更轻

TL;DR通过知识蒸馏的预训练阶段,可以将BERT模型的大小缩小40%,同时保持97%的语言理解能力并且速度提升60%,这种方法被称为DistilBERT,并可为边缘设备上的计算提供良好的性能