Oct, 2021
稀疏渐进蒸馏:在预训练和微调范式下解决过拟合问题
Sparse Progressive Distillation: Resolving Overfitting under Pretrain-and-Finetune Paradigm
Shaoyi Huang, Dongkuan Xu, Ian E.H. Yen, Yijue Wang, Sung-en Chang...
TL;DR本研究针对 pretrain-and-finetune 模式下的 transformer-based 语言模型,提出了一个新的剪枝策略,即基于误差边界的渐进式知识蒸馏,试图通过减少过拟合的风险来提高模型剪枝的效率,结果表明我们的方法在 GLUE 测试集中表现优于竞争对手。