GCV-Turbo: 基于FPGA的GNN计算机视觉任务的端到端加速
本文介绍了一种修改版CNN框架Caffe,该框架支持FPGA实现,并使用Xilinx SDAccel环境实现了基于FPGA的Winograd卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的CNN模型,取得了50 GFLOPS的成果。
Sep, 2016
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了1020图像/秒的性能,比 FPGA 上最先进的技术快10倍,同时也具有5.8倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
研究了一种灵活有效的卷积神经网络加速器结构NullHop,采用神经元激活的稀疏特性加速计算并降低内存需求,可用于低功耗和低延迟应用,实现了98%的MAC单元利用率,达到了超过3TOp/s/W的功率效率,并成功将其FPGA实现与神经形态事件相机接口进行了实时交互演示。
Jun, 2017
本文提出了一个使用Synchronous Dataflow(SDF)模型的端到端框架fpgaConvNet,该框架可用于将卷积神经网络(ConvNets)映射到FPGAs上,实现了对性能度量的有效优化,并在嵌入式环境中将性能提高了最高6.65x。
Nov, 2017
本文提出了一种算法-硬件协同设计的方法,开发了一种名为Synetgy的ConvNet加速器和一种新颖的ConvNet模型DiracDeltaNet,可以高效地在FPGA上运行,得到了更高的准确率和更快的推理速度。
Nov, 2018
本文提出了用于深度学习框架的全栈编译器DNNVM,通过优化图表现形式、循环和数据布局、关键算法和支持验证等,将复杂的CNN模型转换成有向无环图(XGraph)并利用启发式子图同构算法枚举所有潜在的融合机会,并在全计算图中搜索执行策略的最佳选择, 在Xilinx ZU9 @330 MHz等设备上实现了与最新算法同等状态的性能,最终在VGG和ResNet50上达到了最先进的性能。
Feb, 2019
通过 CPU-FPGA 异构系统,我们设计了一种新型加速器,通过算法-架构协同优化,提升 Graph Convolutional Networks 训练的速度。我们采用子图算法,优化特征传播,并提出基于 systolic array 的设计,实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上,我们的设计比现有多核平台的最新实现快一个数量级,且几乎没有精度损失。
Dec, 2019
本文介绍了一种基于OpenCL的卷积神经网络加速器设计,称为FFCNN,它包括数据重用和任务映射技术,这些技术可以在大规模图像分类中提高性能和资源利用率。
Aug, 2022
本文提出了MaxK-GNN,一个高性能的GPU训练系统,通过集成算法和系统创新来实现。在MaxK-GNN系统的广泛评估中,实验结果显示其接近Amdahl法则的理论极限,相对于DGL和GNNAdvisor的实现,在Reddit上实现了3.22/4.24倍的速度提升(相对于理论极限的5.52/7.27倍),并且达到了与SOTA GNN相当的准确性。
Dec, 2023
本研究解决了现有图卷积神经网络在FPGA实现中的可扩展性问题,通过优化硬件模块和提出双步卷积方法,显著降低了LUT的使用量。该方法提高了GCNN的可扩展性,使得可以应用于更多层次、更大规模的图和更动态的场景。
Nov, 2024