Jun, 2022

使用低比特 NxM 稀疏压缩预训练 Transformers 以增强自然语言理解

TL;DR本文提出了新的框架 NxMiFormer,同时使用 ADMM 和 STE-based QAT 进行稀疏化和量化,通过搜索算法找到最优的异构压缩配置,使预处理 Transformer 网络在 NLU 测试中达到 93% 的压缩率并保持 98% 以上的准确性。