ACLApr, 2022

探究多语言预训练模型的结构剪枝:设置、算法和效率

TL;DR本研究评估了基于结构化剪枝在多语言预训练语言模型上的三个方面:设置、算法和效率,并通过在九个下游任务中的实验展示了一些反直觉现象。为了方便各个稀疏度水平上的比较,我们提出了一种简单的方法 —— 动态稀疏化,它可以让模型只需要训练一次就能适应不同的模型大小。我们希望这项工作填补了关于多语言预训练模型上的结构化剪枝研究的空白,并为未来的研究提供启示。