Dec, 2023

关注、蒸馏和表格化:面向实用的基于神经网络的预取

TL;DR提出了一种基于表格化的新方法,通过将注意力机制模型的昂贵矩阵乘法转化为快速查找表的层次结构,显著降低了模型复杂性和推理延迟,并在保持预测准确性的情况下进行了内存访问预测。该方法在性能方面超过了基于规则的最先进预取器,且与基于神经网络的最先进预取器相比,具有更低的预取延迟,从而实现了速度的提升。