ACLApr, 2020

XtremeDistil:大规模多语言模型的多阶段蒸馏

TL;DR本研究聚焦于多语言实体识别,探究知识蒸馏压缩预训练语言模型的多种策略,通过利用教师模型内部表示的分阶段优化方案,成功将 MBERT 模型压缩了 35 倍参数,51 倍批量推理的延迟,同时保持在 41 种语言中的 95%的 F1 分数。