Jan, 2023

大内存系统上的记忆化加速 Transformer

TL;DR本研究介绍一种基于缓存优化技术的变压器模型加速方案,通过建立基于大内存系统的注意力数据库来加速注意力计算,从而实现了平均 21%的性能提升(最高 68%),并且在推理准确性上有可忽略的损失。