SIMD 数据流协同优化用于 CPU 上高效神经网络推理

Oct, 2023

SIMD 数据流协同优化用于 CPU 上高效神经网络推理

SIMD Dataflow Co-optimization for Efficient Neural Networks Inferences on CPUs

Cyrus Zhou, Zack Hassman, Ruize Xu, Dhirpal Shah, Vaugnn Richard...

TL;DR通过使用数据流和启发式引导分析及代码生成框架，我们致力于解决在 CPU 上部署神经网络时所面临的挑战，特别注重在保持准确性的同时最小化推断时间。我们的研究结果表明，通过保持输出在 SIMD 寄存器中的数据流，并同时最大限度地利用输入和权重重用，可以实现各种推断工作负载的最佳性能，使 8 位神经网络的速度提高 3 倍，二进制神经网络的速度提高 4.8 倍。

Abstract

We address the challenges associated with deploying neural networks on CPUs, with a particular focus on minimizing inference time while maintaining accuracy. Our novel approach is to use the →

neural networks cpu inference time dataflow simd

发现论文，激发创造

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与 GPU 相比，使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Nov, 2023

SySMOL: 用于超低和细粒度混合精度神经网络的硬件 - 软件协同设计框架

最近，量化和混合精度技术的最新进展为改善神经网络的运行时间和能量效率提供了极大的希望。通过本研究，我们进一步证明了神经网络中的个别参数或激活可以采用 1 到 4 位不同精度，从而可以获得与全精度对应物相当甚至超过的准确性。然而，这类网络的部署面临着许多挑战，源于需要管理和控制与每个数据片的这些非常精细的混合精度相关的计算、通信和存储需求。现有的有效的硬件和系统级支持对于这些独特且具有挑战性的需求缺乏。我们的研究引入了首个针对这些网络的新颖的硬件 - 软件协同设计方法，该方法使得硬件设计、训练和推理之间具备连续的反馈循环，以促进系统设计探索。我们通过设计新的可配置的面向这些网络的 CPU SIMD 架构，并将该架构与新的系统感知训练和推理技术紧密结合，来说明这种协同设计方法的概念验证。我们使用该框架进行系统化的设计空间探索，以分析各种权衡。在该设计中，混合精度网络的优化权衡对应于一种支持 1、2 和 4 位定点运算的架构，该架构具有四种可配置的精度模式，当与系统感知训练和推理优化相结合时，该网络的准确性与全精度准确性非常接近，同时将神经网络的压缩和运行时效率大大提升 10-20 倍，相比全精度网络。

Nov, 2023

优化 CPU 上 CNN 模型的推理

本研究提出了一种名为 'NeoCPU' 的综合方法，通过对模板进行优化实现卷积神经网络模型的 CPU 推理，而不是依赖第三方库来实现模型图的单独操作优化，从而通过操作级别和图级别同时优化来进一步提高性能。实验结果表明，与当前各种流行 CPU 上的最先进实现相比，NeoCPU 的卷积神经网络模型推理延迟可降低 3.45 倍。

Sep, 2018

二进制神经网络中的数据流优化

通过引入剪裁块，减少二元神经网络层的数据宽度和内部累加器大小，同时优化批标准化层的实现和 ARM 指令集的二值化卷积，提高了推理速度和准确度。

Apr, 2023

带有卷积操作和且非卷积操作的 DNN 推理 / 训练性能分析

本文提出了一种针对深度学习加速器的性能分析框架 ——SimDIT，旨在覆盖卷积和非卷积操作，并提供详细的执行 CNN 推断和训练工作量的端到端性能统计，结果显示，在使用一个 64X64 处理阵列时，ResNet-50 训练工作量的非卷积操作占总运行时间的 59.5％。此外，通过优化可用的片外 DRAM 带宽和片上 SRAM 资源的分配，SimDIT 实现了比 ResNet-50 推理的通用静态资源分配高出 18 倍的性能提升。

Jun, 2023

使用 IntelCaffe 进行高效 8 位低精度卷积神经网络推断

本文介绍了 IntelCaffe 的高效推断技术以及用于深度学习模型优化的技术，它是第一个支持 8 位低精度推断的 Intel 优化深度学习框架，能够在 Intel Xeon Scalable 处理器上加速卷积神经网络的模型优化过程。该模型的 8 位优化模型可通过一次标定过程从 FP32 模型自动生成，无需进行微调或重新训练，其在 ResNet-50、Inception-v3 和 SSD 上的推断吞吐量和延迟分别提高了 1.38X-2.9X 和 1.35X-3X，精度损失可忽略不计，与 IntelCaffe FP32 基线相比，这些技术还使得吞吐量和延迟分别提高了 56X-75X 和 26X-37X。这些技术已在 IntelCaffe GitHub 进行了开源，并提供了 Amazon AWS Cloud 上重现结果的文物。

May, 2018

深度神经网络的降低精度浮点数优化：在微控制器上进行设备端学习

本文提出了一种降低 MCU 类设备上计算量的新型优化技术，使用支持矢量化 16 位浮点 SIMD 操作的 RISC-V RV32 架构，加速了前向和后向传递算法，其计算效率比现有 ODL 软件框架快两个数量级，并且在持续学习设置中比以前的 FP32 并行实现快 1.6 倍。

May, 2023

使用 FPGA 进行高性能计算的设计优化

本研究旨在探索 FPGA 在高性能计算中的应用价值，通过对 Tensil AI 开源推理加速器进行硬件设计和编译优化，成功提升了推理性能，进一步证明了 FPGA 在计算加速中的优越性，通过实验数据证明所提出的加速器在单位能耗下的操作强度可达 21.12 GOP/s，相比市面上其他设备，具有更高的能源效率。

Apr, 2023

量子化神经网络的简化部署

本论文介绍了一种将 QNN 推理操作转换为整数推理操作的流程，以及一些基于比特串处理技术的方法，以常见的按位操作有效地部署 QNN。作者展示了 QNN 在移动 CPU 上的潜力，并提供了一个比特串矩阵乘法库。

Sep, 2017

基于算法、架构和数据流共同设计的高效稀疏 DNN 训练

提出了一个计算高效的 N:M 稀疏深度神经网络（DNN）训练方案，包括算法、架构和数据流共同设计，并利用双向权重修剪方法和稀疏加速器实现了高效的 N:M 稀疏 DNN 训练，在几种 DNN 模型和数据集上的实验结果表明，在 2:8 稀疏比率下，该方案相对于密集训练可实现平均 1.75 倍的加速，准确度损失平均仅为 0.56%，在 FPGA 加速器上训练吞吐量提高了 2.97~25.22 倍，能效提高了 1.36~3.58 倍。

Sep, 2023