Dec, 2022

基于梯度的预训练语言模型内部注意力剪枝

TL;DR本文提出了一种基于梯度的内部关注力修剪方法(GRAIN),可以解决现有算法在模型剪枝时受限于关注头大小和前馈隐藏维度的问题,并结合了知识蒸馏技术,是一个高效的模型压缩方法。