一种可配置和高效的神经网络硬件加速器内存层次结构
本研究提出了一种通用和统一的框架,通过多级现场生成机制和混合精度基准,实现了高分辨率参数的即时恢复,从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算,提高了内存效率 10-20 倍。
Aug, 2021
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架,并在硬件部分采用高效的 FPGA 实现,实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比,该框架至少实现了 152 倍的加速和 71 倍的能效增益。
Feb, 2018
本研究系统研究了协同设计神经网络架构和硬件加速器的重要性和策略,发现不同的使用场景会导致非常不同的搜索结果,研究表明联合搜索方法在所有延迟目标上始终优于以前的面向平台的神经体系结构搜索、手动设计的模型和最先进的 EfficientNet,可将边缘加速器的能源消耗降低高达 2 倍。
Feb, 2021
提出了一种新颖的内存数据排列策略,通过硬件加速器的内核大小来有效减小芯片外数据访问,特别对于基于广义矩阵乘法(GEMM)的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法,证明了该方法能够实现高达 2.8 倍的速度提升。
Dec, 2023
以多层复杂结构表示不同稀疏度,提出 DNN 加速器 HighLight,能有效地将 DNN 稀疏化转换为降低能耗和延迟的技术,并达到高灵活性和性能,改善 DNN 应用的精度和能效。
May, 2023
本文介绍了利用低功耗嵌入式硬件的超高维可重构分析系统 (HyDRATE),该系统利用无 MAC (无浮点数乘积累加操作) 深度神经网络 (DNN) 和超维 (超高维) 计算加速器在边缘执行实时重新配置。通过展示该算法、训练好的量化模型生成和特征提取来实现超高纬度基于逻辑的分类器,并展示了性能随超维数增加而提高的情况。本文介绍了实现的低功耗 FPGA 硬件和嵌入式软件系统,和实现的硬件加速器,以及系统延迟和功耗噪声稳健性等方面的讨论。通过视频活动分类任务的实际与模拟系统性能比较,展示了在相同数据集上的重新配置。使用边缘的少量学习新课程,使用无梯度下降反向传播仅通过重新训练前馈超高维分类器实现该系统的重构性。
Jun, 2022
参数化机器学习加速器可通过硬件加速深度神经网络和非神经网络的机器学习算法进行设计空间探索,其中采用了物理设计驱动的学习预测框架,结合后端功耗、性能和面积分析以及前端性能模拟,实现了对后端 PPA 和运行时能耗等系统指标的真实估计,并引入了完全自动化的设计空间探索技术,通过对架构和后端参数的自动搜索来优化后端和系统指标。实验结果表明,该方法在两种深度学习加速器平台(VTA 和 VeriGOOD-ML)的 ASIC 实现中,无论是商业 12 纳米工艺还是研究导向的 45 纳米工艺,都能以平均 7%或更低的预测误差一致准确地预测后端 PPA 和系统指标。
Aug, 2023
本文提出一种基于硬件 / 软件协同设计的新的约束贝叶斯优化框架,可以自动识别联合设计空间中的优化点,应用于各种神经模型,改善能量延迟产品的性能。
Oct, 2020
本文提供了一种将预先训练的深度神经网络 (DNNs) 转换成脉冲神经网络 (SNNs) 的通用指南,并介绍了一些在神经形态硬件上部署转换后的 SNNs 的技术,可显著改进其延迟,功耗和能耗。实验结果表明,与 Intel Neural Compute Stick 2 相比,使用我们的 SNN 改进技术, Intel 的神经形态处理器 Loihi 在测试的图像分类任务中功耗降低了最多 27 倍,能耗降低了最多 5 倍。
Oct, 2022
通过利用 Halide 的调度语言创建修改编译器以生成硬件,此研究研究了 DNN 加速器和它们的程序映射,并对现有的 DNN 加速器进行了形式上的分类,通过优化硬件资源分配,在保持吞吐量不变的情况下,可以取得 1.6~4.2 倍的能效提升。
Sep, 2018