神经加速器的硬件 / 软件学习式协同设计
本研究系统研究了协同设计神经网络架构和硬件加速器的重要性和策略,发现不同的使用场景会导致非常不同的搜索结果,研究表明联合搜索方法在所有延迟目标上始终优于以前的面向平台的神经体系结构搜索、手动设计的模型和最先进的 EfficientNet,可将边缘加速器的能源消耗降低高达 2 倍。
Feb, 2021
本文提出了一种半解耦合的方法,通过对神经架构进行搜索以获得一组最优架构,然后仅对该小组架构与加速器设计的组合进行优化,从而将总设计空间的大小降低数个数量级,而不会失去最优性,通过在多种架构空间上进行实验的验证,表明该方法可以通过在减少的搜索空间上进行优化,获得最佳解决方案。
Mar, 2022
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架,并在硬件部分采用高效的 FPGA 实现,实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比,该框架至少实现了 152 倍的加速和 71 倍的能效增益。
Feb, 2018
这篇论文展示了硬件和软件的协同设计如何为特定的大型语言模型工作负载创建定制的硬件系统,通过模型并行技术和多加速器仿真框架实现效率度量,重点关注推理工作负载并报告多种软硬件配置下的功耗、周期和延迟度量。
Dec, 2023
参数化机器学习加速器可通过硬件加速深度神经网络和非神经网络的机器学习算法进行设计空间探索,其中采用了物理设计驱动的学习预测框架,结合后端功耗、性能和面积分析以及前端性能模拟,实现了对后端 PPA 和运行时能耗等系统指标的真实估计,并引入了完全自动化的设计空间探索技术,通过对架构和后端参数的自动搜索来优化后端和系统指标。实验结果表明,该方法在两种深度学习加速器平台(VTA 和 VeriGOOD-ML)的 ASIC 实现中,无论是商业 12 纳米工艺还是研究导向的 45 纳米工艺,都能以平均 7%或更低的预测误差一致准确地预测后端 PPA 和系统指标。
Aug, 2023
该研究提出了一种新颖的硬件和软件协同探索框架,用于高效的神经架构搜索。该框架同时探索体系结构搜索空间和硬件设计空间,旨在找到最佳的神经架构和硬件配置,以同时达到最大的测试精度和硬件效率。该方法通过强化学习控制器,可以在 ImageNet 数据集上实现比现有技术更高的吞吐量、节能和搜索效率
Jul, 2019