Jun, 2022
使用低比特 NxM 稀疏压缩预训练 Transformers 以增强自然语言理解
Compressing Pre-trained Transformers via Low-Bit NxM Sparsity for Natural Language Understanding
Connor Holmes, Minjia Zhang, Yuxiong He, Bo Wu
TL;DR本文提出了新的框架 NxMiFormer,同时使用 ADMM 和 STE-based QAT 进行稀疏化和量化,通过搜索算法找到最优的异构压缩配置,使预处理 Transformer 网络在 NLU 测试中达到 93% 的压缩率并保持 98% 以上的准确性。