Nov, 2023

SySMOL: 用于超低和细粒度混合精度神经网络的硬件-软件协同设计框架

TL;DR最近,量化和混合精度技术的最新进展为改善神经网络的运行时间和能量效率提供了极大的希望。通过本研究,我们进一步证明了神经网络中的个别参数或激活可以采用1到4位不同精度,从而可以获得与全精度对应物相当甚至超过的准确性。然而,这类网络的部署面临着许多挑战,源于需要管理和控制与每个数据片的这些非常精细的混合精度相关的计算、通信和存储需求。现有的有效的硬件和系统级支持对于这些独特且具有挑战性的需求缺乏。我们的研究引入了首个针对这些网络的新颖的硬件-软件协同设计方法,该方法使得硬件设计、训练和推理之间具备连续的反馈循环,以促进系统设计探索。我们通过设计新的可配置的面向这些网络的CPU SIMD架构,并将该架构与新的系统感知训练和推理技术紧密结合,来说明这种协同设计方法的概念验证。我们使用该框架进行系统化的设计空间探索,以分析各种权衡。在该设计中,混合精度网络的优化权衡对应于一种支持1、2和4位定点运算的架构,该架构具有四种可配置的精度模式,当与系统感知训练和推理优化相结合时,该网络的准确性与全精度准确性非常接近,同时将神经网络的压缩和运行时效率大大提升10-20倍,相比全精度网络。