深度神经网络加速器的快速内积算法和架构

Nov, 2023

深度神经网络加速器的快速内积算法和架构

Fast Inner-Product Algorithms and Architectures for Deep Neural Network Accelerators

Trevor E. Pogue, Nicola Nicolici

TL;DR提出了一种名为自由流水线快速内积（FFIP）的新算法及其硬件架构，该算法改进了 Winograd 在 1968 年提出的一种未被充分探索的快速内积算法（FIP）。与 Winograd 最小滤波算法不同，FIP 适用于所有可分解为矩阵乘法的机器学习模型层，包括全连接、卷积、循环和注意力 / 变换层。我们首次在机器学习加速器中实现了 FIP，提出了 FFIP 算法和通用架构，从而从本质上提高了 FIP 的时钟频率和吞吐量。此外，我们对 FIP 和 FFIP 算法及架构进行了机器学习特定的优化。我们发现，在相同类型的计算平台上，FFIP 对于非稀疏机器学习模型的 8 到 16 位定点输入实现了比同类先前解决方案更高的吞吐量和计算效率。

Abstract

We introduce a new algorithm called the Free-pipeline Fast Inner Product (ffip) and its hardware architecture that improve an under-explored fast inner-product algorithm (FIP) proposed by Winograd in 1968. Unlike the unrelated Winograd minimal filtering algorithms for convolutional lay

ffip fast inner-product algorithm ml accelerator fixed-point systolic array compute efficiency

发现论文，激发创造

基于 FPGA 的混合高效卷积算法的人脸识别

本研究通过探索多种快速卷积算法，包括 Winograd 和 FFT，并发现了一种将它们应用于不同类型卷积的最佳策略；实现在基于高级综合的可配置 IP 人脸识别加速系统中使用 FaceNet，并利用并行化的优化方案在新型 CNN 体系结构上，实现比高端 NVIDIA GPU 快 3.75 倍的延迟加速，并显著超过先前的 FPGA 结果。

Mar, 2018

DeepFire2：一种基于 FPGAs 的卷积脉冲神经网络加速器

DeepFire2 是一种新型的硬件架构，能够在多个逻辑区域上高效地映射大型网络层，大大提高了吞吐量和能源利用率，同时避免了查找表对 SNN 逻辑资源的限制，能够部署大型的 ImageNet 模型，保持每秒超过 1500 帧的吞吐量。

May, 2023

产品量化及其硬件加速

本文研究了在 DNNs 中将传统的 MAC 操作替换为使用 product quantization 时的计算和内存占用情况，采用不同的 PQ 设置和训练方法，设计了第一个定制的硬件加速器来评估运行 PQ 模型的速度和效率，发现与高度优化的传统 DNN 加速器相比，PQ 配置能够使 ResNet20 的面积性能提高 40% 至 104%，且硬件性能优于近期的 PQ 解决方案 4 倍，只有 0.6% 的精度降低，为 PQ 模型的更广泛采用铺平了道路。

May, 2023

基于 FPGA 的卷积运算加速解决方案

本文介绍了一种基于硬件加速的卷积操作 FPGA 架构，旨在实现单层卷积的处理，以推出一种边缘 AI 解决方案 IP 核，实验结果表明它的峰值运算性能可达 4.48 GOPS。

Jun, 2022

跨语言嵌入对齐的内积投影过滤

本文提出了一种方法 -“过滤内积投影（FIPP）”，用于在双语字典诱导的上下文中将嵌入映射到共同的表示空间，并评估了 FIPP 的性能。不同于之前的方法，FIPP 在两个嵌入中识别共同的几何结构，然后仅在该几何结构上对这些嵌入的格拉姆矩阵进行对齐，且具有易于实现和可伸缩的计算优势。在各种语言对的 MUSE 数据集上，FIPP 的结果优于现有方法。

Jun, 2020

深度学习系统的超高性能和能量效率：一种算法 - 硬件协同优化框架

本文旨在实现深度神经网络硬件实现的超高能效和性能，提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架，并在硬件部分采用高效的 FPGA 实现，实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比，该框架至少实现了 152 倍的加速和 71 倍的能效增益。

Feb, 2018

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与 GPU 相比，使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Nov, 2023

FFCNN：基于 FPGA 的卷积神经网络推理快速加速

本文介绍了一种基于 OpenCL 的卷积神经网络加速器设计，称为 FFCNN，它包括数据重用和任务映射技术，这些技术可以在大规模图像分类中提高性能和资源利用率。

Aug, 2022

FINN: 快速可伸缩二值神经网络推理框架

本文介绍 FINN，一种用于构建快速、灵活的 FPGA 加速器的框架，该框架使用灵活的异构流式架构，并利用一组优化，将二值化神经网络映射到硬件上，从而实现完全连接、卷积和池化层，同时满足用户提供的吞吐量要求。在低于 25W 的总系统功率下，该平台在 MNIST 数据集上表现出高达 1230 万次图像分类每秒，0.31 微秒的延迟和 95.8％的准确率，在 CIFAR-10 和 SVHN 数据集上表现出 21906 次和 283 微秒的延迟、80.1％和 94.9％的准确率，这是目前这些基准测试中报道的最快的分类率。

Dec, 2016

Arria 10 上的 OpenCL (TM) 深度学习加速器

利用深度学习加速器（DLA）和 Winograd 变换技术，我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能，比 FPGA 上最先进的技术快 10 倍，同时也具有 5.8 倍的更高效率，并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。

Jan, 2017