Jan, 2023

探索基于注意力图复用的高效 Transformer 神经网络

TL;DR本文研究了基于 Transformer 的自注意力(SA)提取序列特征方案,在注意力地图重用方面做了全面的研究,并证明了其在加速推理方面具有显著的优势。实验结果表明,注意力地图重用方法在 CPU 和 GPU 平台上可以减少推理延迟。