Oct, 2019

DistilBERT:BERT 的简化版 —— 更小、更快、更便宜、更轻

TL;DR通过知识蒸馏的预训练阶段,可以将 BERT 模型的大小缩小 40%,同时保持 97%的语言理解能力并且速度提升 60%,这种方法被称为 DistilBERT,并可为边缘设备上的计算提供良好的性能