Apr, 2024

利用 2:4 稀疏加速 Transformer 预训练

TL;DR使用 NVIDIA Ampere GPU 利用 2:4 稠密 / 稀疏矩阵相乘的性质对 Transformer 的预训练进行加速,通过修改稀疏优化过程中的估计器和在预训练末端进行简单而有效的稠密微调,以及利用卷积计算可转置的 2:4 掩码和减少 GPU L2 缓存缺失来加速门控激活函数,实验结果表明我们提出的方法在不同 2:4 训练方法中达到最佳性能,并在不同形状的 Transformer 块上实现了实际加速。