Oct, 2022

CPU 上的快速 DistilBERT

TL;DR本文介绍了一种新的在CPU上创建和运行快速Transformer模型的流水线,利用硬件感知剪枝、知识蒸馏和量化等模型压缩技术,通过优化稀疏和量化操作库的运行时引擎来提高推理效率,创造了一个Fast DistilBERT模型,其通过问题回答SQuADv1.1基准测试表现良好,性能比现有的Neural Magic's DeepSparse运行时性能提高了高达50%,比ONNX计算时性能提升了最多4.1倍。