Jun, 2024

VTrans:基于变分信息瓶颈剪枝的 Transformer 压缩加速

TL;DR我们提出了 VTrans,一种迭代剪枝框架,通过变分信息瓶颈(VIB)原则引导,压缩所有结构组件,包括嵌入层、注意力头和层,以满足模型大小或计算约束,相比之前的方法实现了高达 70% 的压缩,并提出了更快的变体。在 BERT、ROBERTa 和 GPT-2 模型上进行的广泛实验证实了我们方法的效果,并使用基于注意力的探针定性评估模型冗余性和方法的效率。