Jun, 2024

Transformer 模型中的关键要素:并非所有的注意力都是必要的

TL;DR通过使用基于相似性的度量标准,本文研究了 Transformer 中不同模块(如 Blocks、MLP 和 Attention 层)之间的冗余性变化,发现一大部分 Attention 层可以被安全剪枝,从而降低内存和计算成本,并提出了一种同时舍弃 Attention 和 MLP 层的方法,进一步提升性能和降低比率。