Oct, 2021

稀疏渐进蒸馏:在预训练和微调范式下解决过拟合问题

TL;DR本研究针对 pretrain-and-finetune 模式下的 transformer-based 语言模型,提出了一个新的剪枝策略,即基于误差边界的渐进式知识蒸馏,试图通过减少过拟合的风险来提高模型剪枝的效率,结果表明我们的方法在 GLUE 测试集中表现优于竞争对手。