EMNLPSep, 2021

EfficientBERT: 通过热身知识蒸馏逐层搜索多层感知器

TL;DR本文针对大规模语言模型因其体积庞大、推理速度慢难以部署于边缘设备的问题,通过对 BERT 前馈网络进行优化实现高性能、高效率的 EfficientBERT 模型,取得了较好的性能表现。