可重构分布式 FPGA 集群设计用于深度学习加速器
本文提出了一种可扩展的加速器体系结构 DLAU,通过在 FPGA 上实现,使用三个流水线处理单元来提高吞吐量并利用瓦片技术探索深度学习应用程序的局部性来提高性能和维护低功耗,实验结果表明 DLAU 加速器与 Intel Core2 处理器相比,速度提高了 36.1 倍,功耗为 234mW。
May, 2016
本文评估 DL 加速器在多租户 FPGA 场景下对基于电压的完整性攻击的安全性,并发现时序攻击并不能影响 DL 加速器的预测准确度,同时过时钟提速可以提高推断性能。
Dec, 2020
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能,比 FPGA 上最先进的技术快 10 倍,同时也具有 5.8 倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
本文提出了一种相结合的 FPGA/DNN 共同设计方法,包括自动设计流程和硬件优化的 DNN 模型搜索,结果表明在对象检测上该设计方案的 DNN 模型和加速器在交并比、帧数、功耗和能量效率等多个方面优于 GPU 解决方案。
Apr, 2019
在嵌入式 FPGA 中,通过混合量化方案加速极低比特宽度神经网络(ELB-NN),提出了一种设计流程,既涵盖了网络的训练,也包含了基于 FPGA 的网络部署,从而方便设计者探索设计空间,简化网络精度和计算效率之间的权衡,巧妙地在资源和功耗限制条件下提供边缘设备中的网络加速器,实现高达 10.3 TOPS 的高性能,每瓦分类达到 325.3 张图像。在文献中,我们比较了 GPU 或其他 FPGA 实现,结果显示出目前最省能的解决方案。
Jul, 2018
本研究介绍一种针对深度神经网络推理的覆盖层,通过引入一种轻量级的超长指令字(VLIW)网络支持控制和重新编程逻辑,以及实现了一个复杂的特定领域的图形编译器,以显著提高 CNNs/RNNs 的性能,最终在 Intel Arria 10 1150 上实现了~900 fps,并且对比以往研究,在性能方面有了巨大的进步。
Jul, 2018
参数化机器学习加速器可通过硬件加速深度神经网络和非神经网络的机器学习算法进行设计空间探索,其中采用了物理设计驱动的学习预测框架,结合后端功耗、性能和面积分析以及前端性能模拟,实现了对后端 PPA 和运行时能耗等系统指标的真实估计,并引入了完全自动化的设计空间探索技术,通过对架构和后端参数的自动搜索来优化后端和系统指标。实验结果表明,该方法在两种深度学习加速器平台(VTA 和 VeriGOOD-ML)的 ASIC 实现中,无论是商业 12 纳米工艺还是研究导向的 45 纳米工艺,都能以平均 7%或更低的预测误差一致准确地预测后端 PPA 和系统指标。
Aug, 2023
本论文介绍了一款软硬协同优化的分布式深度学习系统,通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间,并在 Resnet-101 上取得了 33.8% 的验证精度,系统已被集成到 Tensorflow、Caffe 和 Torch 中。
Aug, 2017
本文介绍了利用低功耗嵌入式硬件的超高维可重构分析系统 (HyDRATE),该系统利用无 MAC (无浮点数乘积累加操作) 深度神经网络 (DNN) 和超维 (超高维) 计算加速器在边缘执行实时重新配置。通过展示该算法、训练好的量化模型生成和特征提取来实现超高纬度基于逻辑的分类器,并展示了性能随超维数增加而提高的情况。本文介绍了实现的低功耗 FPGA 硬件和嵌入式软件系统,和实现的硬件加速器,以及系统延迟和功耗噪声稳健性等方面的讨论。通过视频活动分类任务的实际与模拟系统性能比较,展示了在相同数据集上的重新配置。使用边缘的少量学习新课程,使用无梯度下降反向传播仅通过重新训练前馈超高维分类器实现该系统的重构性。
Jun, 2022
本文介绍了一种 FPGA 加速神经网络评估的异构计算系统,通过利用 DSP 和 LUT 的不同资源优势进行计算。作者运用强化学习算法对系统进行优化,使得该系统在减少延迟的同时提高了精度表现。
Dec, 2021