May, 2024

高效适数值计算的开源框架

TL;DR我们提出了一个通用的开源框架,旨在促进高效、个性化的数值矩阵乘法运算(MMM)。该框架提供了两个主要贡献:第一,一个经过优化的、自动化的算术数据通路生成流水线,可以实现高度定制化的脉动式 MMM 核心;第二,生成的核心能够无缝集成到用户代码中,无论使用的是哪种编程语言,而无需进行修改。该框架在多样化的高性能计算工作负载中展现了能效提升的系统性效果,这些工作负载展示了多种数字需求,如人工智能推理和海面高度计算。在人工智能推理方面,我们考虑了一系列最先进的神经网络模型,包括 ResNet18、ResNet34、ResNet50、DenseNet121、DenseNet161、DenseNet169 和 VGG11,结合了两个数据集、两种计算机格式和 27 种不同的中间算术数据通路。我们的方法在所有情况下都能显著减少能耗,其中一个明显的例子是在使用 ResNet50 进行 ImageNet 推理时,IEEE754-32 的能耗降低了 3.3 倍,Bfloat16 的能耗降低了 1.4 倍。在保持 82.3% 和 86% 的准确率的同时,与传统的浮点数单元(FPUs)所实现的准确率相当。在 SSH 计算方面,我们的方法通过使用双精度字实现了完全可重现的结果,超过了传统双精度和四倍精度浮点数运算器(FPUs)的准确率。我们的方法相比 IEEE754-64 和 IEEE754-128,最低提高了 5 倍和 27 倍的 SSH 计算准确性,从而在每单位功耗方面的准确度提升分别为 5.6 倍和 15.1 倍。