Oct, 2022

CPU 上的快速 DistilBERT

TL;DR本文介绍了一种新的在 CPU 上创建和运行快速 Transformer 模型的流水线,利用硬件感知剪枝、知识蒸馏和量化等模型压缩技术,通过优化稀疏和量化操作库的运行时引擎来提高推理效率,创造了一个 Fast DistilBERT 模型,其通过问题回答 SQuADv1.1 基准测试表现良好,性能比现有的 Neural Magic's DeepSparse 运行时性能提高了高达 50%,比 ONNX 计算时性能提升了最多 4.1 倍。