本文提出了一种使用Fourier变换和GPU架构,加速卷积网络的训练和推理的算法,并在现有技术的基础上取得了数量级上的改善。
Dec, 2013
研究使用Winograd最小滤波算法加速卷积神经网络在GPU上的训练,以满足自动驾驶汽车行人检测和移动电话图像识别的低延迟和有限资源处理要求。
Sep, 2015
使用“重叠相加”技术和快速傅里叶变换来减少卷积神经网络中卷积层的计算时间,实现了更高效的向前和向后传播。
Jan, 2016
本文介绍了一种修改版CNN框架Caffe,该框架支持FPGA实现,并使用Xilinx SDAccel环境实现了基于FPGA的Winograd卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的CNN模型,取得了50 GFLOPS的成果。
Sep, 2016
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了1020图像/秒的性能,比 FPGA 上最先进的技术快10倍,同时也具有5.8倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
本研究通过探索多种快速卷积算法,包括Winograd和FFT,并发现了一种将它们应用于不同类型卷积的最佳策略;实现在基于高级综合的可配置IP人脸识别加速系统中使用FaceNet,并利用并行化的优化方案在新型CNN体系结构上,实现比高端NVIDIA GPU快3.75倍的延迟加速,并显著超过先前的FPGA结果。
Mar, 2018
该研究提出使用基于FFT的U-Net对卷积神经网络中的图像卷积成本进行改进,并应用于BBBC数据集,成功地将训练时间从600-700ms/步缩短至400-500ms/步,以及在IoU指标上取得了显著的提高。
Oct, 2020
本文介绍了一种基于OpenCL的卷积神经网络加速器设计,称为FFCNN,它包括数据重用和任务映射技术,这些技术可以在大规模图像分类中提高性能和资源利用率。
Aug, 2022
本文提出了基于im2win的卷积范式,旨在通过持续的内存访问提高性能,并经过了优化技术的改进,与其他基于cuBLAS和cuDNN的卷积实现相比,内存占用少23.1%至32.8%,性能提高了3.5倍至155倍。
Jun, 2023
我们提出了FlashFFTConv,一个优化FFT卷积的方法,使用矩阵分解结构和稀疏卷积算法实现了长序列任务的加速,同时在计算资源限制下,提高了模型的性能和准确度。
Nov, 2023