通过 FFT 快速训练卷积神经网络
本文研究了卷积神经网络在当前 NVIDIA 图形处理器上的性能,介绍了两种新的快速傅立叶变换卷积实现,对于整个 CNN,fbfft 比 cuFFT 快 1.5 倍以上,并且对于许多普通的卷积层,速度也比 NVIDIA 的 cuDNN 实现 快(达到了一些合成内核配置的 23.5 倍)。
Dec, 2014
该论文提出了一种新的卷积神经网络快速傅立叶变换域处理方法,该方法基于输入分割,可以有效地解决卷积神经网络中小核计算的问题,并通过硬件实现和复杂性分析验证了其性能。
Mar, 2020
比较了三种高度优化的实现方式(常规 FFT、Gauss-FFT 和 Winograd-based convolution)在现代多核和众核 CPU 上的效果,并使用 Roofline 性能模型对三种方法的计算阶段进行了详细的分析,结果显示 FFT-based 实现通常优于 Winograd-based approach。
Sep, 2018
本研究通过探索多种快速卷积算法,包括 Winograd 和 FFT,并发现了一种将它们应用于不同类型卷积的最佳策略;实现在基于高级综合的可配置 IP 人脸识别加速系统中使用 FaceNet,并利用并行化的优化方案在新型 CNN 体系结构上,实现比高端 NVIDIA GPU 快 3.75 倍的延迟加速,并显著超过先前的 FPGA 结果。
Mar, 2018
该研究提出使用基于 FFT 的 U-Net 对卷积神经网络中的图像卷积成本进行改进,并应用于 BBBC 数据集,成功地将训练时间从 600-700ms / 步缩短至 400-500ms / 步,以及在 IoU 指标上取得了显著的提高。
Oct, 2020
本文介绍了一种基于 OpenCL 的卷积神经网络加速器设计,称为 FFCNN,它包括数据重用和任务映射技术,这些技术可以在大规模图像分类中提高性能和资源利用率。
Aug, 2022
我们提出了 FlashFFTConv,一个优化 FFT 卷积的方法,使用矩阵分解结构和稀疏卷积算法实现了长序列任务的加速,同时在计算资源限制下,提高了模型的性能和准确度。
Nov, 2023
使用全卷积网络进行运算符逼近可以显著提高逼近精度,降低运行时间和内存开销。在输入输出对上的训练可以将原始运算符逼近,并且可以对多种不同的高级图像处理运算符进行逼近,包括多种变分模型、多尺度调节和明暗细节操作等。
Sep, 2017