利用 MAESTRO 的数据中心方法理解 DNN 数据流的重用性、性能和硬件成本
研究提出了用于生成各种 DNN 模型运算符在加速器计算和内存资源上的优化映射的编译器和其成本模型的有效性,使用 Maestro Data-Centric(MDC)记法,提供了 DNN 运算符的形式上的理解,提出了一种将映射转换为 MDC 记法的转换,并提出了一种将搜索空间分解为 off-chip 和 on-chip 子空间的解决方案。
Feb, 2020
参数化机器学习加速器可通过硬件加速深度神经网络和非神经网络的机器学习算法进行设计空间探索,其中采用了物理设计驱动的学习预测框架,结合后端功耗、性能和面积分析以及前端性能模拟,实现了对后端 PPA 和运行时能耗等系统指标的真实估计,并引入了完全自动化的设计空间探索技术,通过对架构和后端参数的自动搜索来优化后端和系统指标。实验结果表明,该方法在两种深度学习加速器平台(VTA 和 VeriGOOD-ML)的 ASIC 实现中,无论是商业 12 纳米工艺还是研究导向的 45 纳米工艺,都能以平均 7%或更低的预测误差一致准确地预测后端 PPA 和系统指标。
Aug, 2023
本论文介绍了一种新的针对深度神经网络(DNN)硬件加速器的优化框架,它能够快速开发定制化和自动化的设计流程,同时具有高度可定制性和灵活性,通过引入新的优化和转换任务,不需要人类专业知识,可以在保持准确性的同时大幅度降低 DSP 和 LUT 使用,相较于现有技术,具有更高的精度和更少的 DSP 资源使用率。
Jun, 2023
通过一个名为 COSMA 的优化框架,我们能够在专用硬件加速器上为 DNNs 找到最佳的操作调度、内存分配和张量替换方式,从而最小化额外数据访问,同时通过分而治之的启发式方法可以将复杂 DNNs 的数据访问降低 85% 以上。
Nov, 2023
利用软硬件协同优化的方法,我们提出了一种针对数据流加速器的利用非结构化稀疏性的新方法,通过一系列模型,在现有的疏松设计中实现了从 1.3 倍到 4.2 倍的效率提升,特别是 MobileNetV3 的吞吐量可以优化到 4895 张图像每秒。HASS 是开源的:https://github.com/Yu-Zhewen/HASS
Jun, 2024
基于深度神经网络的多加速器系统中,选择适当的加速器组合和高效的神经网络映射策略是一个具有挑战性的问题,我们提出了一个名为 MARS 的新型映射框架,可以执行计算感知的加速器选择,并应用通信感知的分片策略来最大化并行性,实验证明,与基准相比,MARS 可以平均减少 32.2% 的延迟,并且相对于对应的最先进方法,可以减少 59.4% 的异构模型的延迟。
Jul, 2023
通过利用 Halide 的调度语言创建修改编译器以生成硬件,此研究研究了 DNN 加速器和它们的程序映射,并对现有的 DNN 加速器进行了形式上的分类,通过优化硬件资源分配,在保持吞吐量不变的情况下,可以取得 1.6~4.2 倍的能效提升。
Sep, 2018
本文提出了面向可扩展多节点神经网络体系结构上的时间和空间调度的综合性和实用性数据流表示,利用一组形式化的张量中心指令,构建出一个通用、优化和快速的数据流求解器 KAPLA,它在训练和推理中实现了 2.2% 和 7.7% 的能耗开销,并且在效果和速度上胜过了随机和基于机器学习的方法。
Jun, 2023
提出了一个计算高效的 N:M 稀疏深度神经网络(DNN)训练方案,包括算法、架构和数据流共同设计,并利用双向权重修剪方法和稀疏加速器实现了高效的 N:M 稀疏 DNN 训练,在几种 DNN 模型和数据集上的实验结果表明,在 2:8 稀疏比率下,该方案相对于密集训练可实现平均 1.75 倍的加速,准确度损失平均仅为 0.56%,在 FPGA 加速器上训练吞吐量提高了 2.97~25.22 倍,能效提高了 1.36~3.58 倍。
Sep, 2023
我们设计了一种新型大规模编排层,Pathways,它能够探索新的系统和机器学习研究想法,同时保持目前模型的先进性能。Pathways 使用异步 operator 的分片数据流图,在数千个加速器上高效地安排异构并行计算,同时通过专用互连协调数据传输。通过小心的工程技术,Pathways 采用了异步分布式数据流设计,使得控制平面能够并行执行,尽管在数据平面有依赖。我们证明,Pathways 能够在 2048 TPUs 上运行 SPMD 计算,达到与最先进系统相当的性能平衡(~100% 加速器利用率),同时在 Transformer 模型的 16 个阶段或连接在数据中心网络上的两个加速器岛上进行分片时,也能够提供与 SPMD 情况相当的吞吐量。
Mar, 2022