Nov, 2023

深度神经网络加速器的快速内积算法和架构

TL;DR提出了一种名为自由流水线快速内积(FFIP)的新算法及其硬件架构,该算法改进了 Winograd 在 1968 年提出的一种未被充分探索的快速内积算法(FIP)。与 Winograd 最小滤波算法不同,FIP 适用于所有可分解为矩阵乘法的机器学习模型层,包括全连接、卷积、循环和注意力 / 变换层。我们首次在机器学习加速器中实现了 FIP,提出了 FFIP 算法和通用架构,从而从本质上提高了 FIP 的时钟频率和吞吐量。此外,我们对 FIP 和 FFIP 算法及架构进行了机器学习特定的优化。我们发现,在相同类型的计算平台上,FFIP 对于非稀疏机器学习模型的 8 到 16 位定点输入实现了比同类先前解决方案更高的吞吐量和计算效率。