EMNLPMay, 2022

先训练平面,再压缩:锐度感知最小化算法学习更易压缩的模型

TL;DR本文提出了结合 SAM 的各种任务特定的模型压缩方法,包括迭代幅值修剪(IMP)、结构修剪和训练后动态量化,实验表明,优化平坦最小值一致性地导致参数更可压缩,并且在 GLUE 文本分类和 SQuAD 问答基准测试中几乎没有精度损失。