Apr, 2022

基于梯度学习的运行时剪枝加速注意力机制

TL;DR通过引入一个软正则化器来优化自注意力机制的计算,新提出的 LeOPArd 位串行体系结构可以在不损害平均精度的情况下提高计算速度和降低能源消耗。