BriefGPT.xyz
Ask
alpha
关键词
accelerate inference
搜索结果 - 1
探索基于注意力图复用的高效 Transformer 神经网络
本文研究了基于 Transformer 的自注意力(SA)提取序列特征方案,在注意力地图重用方面做了全面的研究,并证明了其在加速推理方面具有显著的优势。实验结果表明,注意力地图重用方法在 CPU 和 GPU 平台上可以减少推理延迟。
PDF
a year ago
Prev
Next