神经加速的位并行向量可组合性
本文提出一种新的 DNN 加速器设计 ——Bit Fusion,通过引入动态位级融合/分解,实现了对 DNN 层位宽进行动态匹配,提高了计算性能且无损精度。通过与现有 DNN 加速器模型的比较实验,Bit Fusion 在面积、频率与工艺技术相同的情况下,相较于 Eyeriss 加速了 3.9 倍并节省了 5.1 倍的能源,相较于 Stripes 加速了 2.6 倍并减少了 3.9 倍的能源。在 16nm 的 GPU 技术节点上,Bit Fusion 的性能远超过使用 8 位向量指令的 250 瓦 Titan Xp,消耗仅为 895 毫瓦。
Dec, 2017
通过使用新一代 GPU 芯片中的张量核心实现 “二值神经网络” 设计中点乘和卷积的操作,使其在处理 ImageNet 数据集时比现有软件实现快出 77%,从而显著提高性能。
Jun, 2020
本文研究了深度卷积神经网络中的关键构建模块的向量化过程,旨在更好地理解和促进并行实现,作者开发和比较了六种具有不同程度向量化的实现,并提供了一个统一的 CNN 框架,同时提供了一个具有最先进速度性能的矢量化 Matlab 实现。
Jan, 2015
利用 8 位近似算法在深度学习的并行化中提供更高的带宽利用率和数据传输速度,同时不降低预测性能,在非常大的多 GPU 系统中达到了 50 倍以上的速度提升,并且在模型并行方面实现了最先进的速度提升。
Nov, 2015
本文提出了用于深度学习框架的全栈编译器 DNNVM,通过优化图表现形式、循环和数据布局、关键算法和支持验证等,将复杂的 CNN 模型转换成有向无环图(XGraph)并利用启发式子图同构算法枚举所有潜在的融合机会,并在全计算图中搜索执行策略的最佳选择, 在 Xilinx ZU9 @330 MHz 等设备上实现了与最新算法同等状态的性能,最终在 VGG 和 ResNet50 上达到了最先进的性能。
Feb, 2019
本文介绍了一种名为 SwitchBlade 的框架,通过新型分区级操作融合、分区级多线程和细粒度图分区等方法,实现了对图神经网络的高性能和高效能加速,相较于 NVIDIA V100 GPU,SwitchBlade 平均速度提升 1.85 倍,节能 19.03 倍,并且在性能上与最先进的专用加速器相媲美。
Aug, 2023
这篇论文展示了硬件和软件的协同设计如何为特定的大型语言模型工作负载创建定制的硬件系统,通过模型并行技术和多加速器仿真框架实现效率度量,重点关注推理工作负载并报告多种软硬件配置下的功耗、周期和延迟度量。
Dec, 2023
通过使用数据流和启发式引导分析及代码生成框架,我们致力于解决在 CPU 上部署神经网络时所面临的挑战,特别注重在保持准确性的同时最小化推断时间。我们的研究结果表明,通过保持输出在 SIMD 寄存器中的数据流,并同时最大限度地利用输入和权重重用,可以实现各种推断工作负载的最佳性能,使 8 位神经网络的速度提高 3 倍,二进制神经网络的速度提高 4.8 倍。
Oct, 2023
本研究旨在提出一种编译器,通过 Torch7 模型描述文件生成机器级指令,并实现了一种与卷积神经网络相关的定制硬件加速器 Snowflake,优化了模型结构解析、CNN 负载分解、内存带宽优化和平衡内存访问等方面,以达到生成的指令的性能与手动优化代码相当,并有效地执行 AlexNet 和 ResNet18 推理任务。
Aug, 2017