Apr, 2021

预训练模型中存在的彩票大奖

TL;DR本文提出了一种搜索被称为 "lottery jackpots" 的高性能、稀疏的子网络的方法,通过使用基于幅值的裁剪技术初始化稀疏掩码并使用短限制方法减少训练损失,从而提高搜索效率和准确性。