EMNLPMay, 2022
先训练平面,再压缩:锐度感知最小化算法学习更易压缩的模型
Train Flat, Then Compress: Sharpness-Aware Minimization Learns More Compressible Models
Clara Na, Sanket Vaibhav Mehta, Emma Strubell
TL;DR本文提出了结合 SAM 的各种任务特定的模型压缩方法,包括迭代幅值修剪(IMP)、结构修剪和训练后动态量化,实验表明,优化平坦最小值一致性地导致参数更可压缩,并且在 GLUE 文本分类和 SQuAD 问答基准测试中几乎没有精度损失。