本文提出了一种使用Fourier变换和GPU架构,加速卷积网络的训练和推理的算法,并在现有技术的基础上取得了数量级上的改善。
Dec, 2013
本文研究了卷积神经网络在当前NVIDIA图形处理器上的性能,介绍了两种新的快速傅立叶变换卷积实现,对于整个CNN,fbfft比cuFFT快1.5倍以上,并且对于许多普通的卷积层,速度也比NVIDIA的cuDNN实现 快(达到了一些合成内核配置的23.5倍)。
Dec, 2014
研究使用Winograd最小滤波算法加速卷积神经网络在GPU上的训练,以满足自动驾驶汽车行人检测和移动电话图像识别的低延迟和有限资源处理要求。
Sep, 2015
使用“重叠相加”技术和快速傅里叶变换来减少卷积神经网络中卷积层的计算时间,实现了更高效的向前和向后传播。
Jan, 2016
本研究提出了基于快速傅里叶变换(FFT)的深度神经网络(DNN)训练和推断模型,适用于嵌入式平台,旨在减少计算和存储的渐近复杂度,提高了处理速度。
Dec, 2017
该论文提出了一种新的卷积神经网络快速傅立叶变换域处理方法,该方法基于输入分割,可以有效地解决卷积神经网络中小核计算的问题,并通过硬件实现和复杂性分析验证了其性能。
Mar, 2020
该研究提出使用基于FFT的U-Net对卷积神经网络中的图像卷积成本进行改进,并应用于BBBC数据集,成功地将训练时间从600-700ms/步缩短至400-500ms/步,以及在IoU指标上取得了显著的提高。
Oct, 2020
本文介绍了一种基于OpenCL的卷积神经网络加速器设计,称为FFCNN,它包括数据重用和任务映射技术,这些技术可以在大规模图像分类中提高性能和资源利用率。
Aug, 2022
我们提出了FlashFFTConv,一个优化FFT卷积的方法,使用矩阵分解结构和稀疏卷积算法实现了长序列任务的加速,同时在计算资源限制下,提高了模型的性能和准确度。
Nov, 2023
通过采用符号计算扩展离散傅里叶变换(DFT)的SFC,只需要在特定转换点执行加法运算,从而避免了计算无理数并降低了对精度的要求,同时通过引入修正项将傅里叶方法的无效循环卷积输出转换为有效输出,首次提出了数值误差分析,证明了我们算法在三维卷积上可以实现3.68倍的乘法减少,而Winograd算法只能达到2.25倍减少,同时在基准和FPGA实验中表明我们的新算法可以进一步提高量子化模型的计算效率并保持准确性,超过了仅量子化方法和现有的快速卷积量化研究。
Jul, 2024