通过FFT快速训练卷积神经网络
本文研究了卷积神经网络在当前NVIDIA图形处理器上的性能,介绍了两种新的快速傅立叶变换卷积实现,对于整个CNN,fbfft比cuFFT快1.5倍以上,并且对于许多普通的卷积层,速度也比NVIDIA的cuDNN实现 快(达到了一些合成内核配置的23.5倍)。
Dec, 2014
本研究介绍了一种基于任务分解的并行算法ZNN,它能够在计算机视觉中应用广泛的卷积神经网络中实现PRAM模型下的线性加速,通过时间局部化和一种几乎无等待的并发方法,此算法能够在共享内存机器上达到与物理核心数量相当的加速效果,适用于宽网络结构。此算法基于CPU的任务并行性,与GPU的SIMD并行性相比,ZNN的开发和维护成本相对较低。
Oct, 2015
该研究提出使用基于FFT的U-Net对卷积神经网络中的图像卷积成本进行改进,并应用于BBBC数据集,成功地将训练时间从600-700ms/步缩短至400-500ms/步,以及在IoU指标上取得了显著的提高。
Oct, 2020
本论文研究了在极端卷积核上训练和验证了能够光滑扩展卷积核的方法,提出了一种基于此方法的纯卷积神经网络结构SLaK,可以在图像分类和各种下游任务中实现与分层变压器和现代 ConvNet 结构相当甚至更好的性能表现。
Jul, 2022
FFCV是一个用于简单快捷地进行机器学习模型训练的库,通过消除训练过程中的数据瓶颈来加速模型训练,结合有效的文件存储格式、缓存、数据预处理、异步数据传输和即时编译等技术,以使数据加载和传输更加高效,确保GPU可以达到完全利用率,并异步地将尽可能多的数据处理卸载到CPU,从而释放GPU周期进行训练。
Jun, 2023
通过学习频率表示的神经隐式函数,我们在大型图像分类基准测试中实现了与最先进技术相媲美的结果,并在频率域中执行卷积,从而可以对学习到的感受野进行深入分析。
Jul, 2023
我们提出了FlashFFTConv,一个优化FFT卷积的方法,使用矩阵分解结构和稀疏卷积算法实现了长序列任务的加速,同时在计算资源限制下,提高了模型的性能和准确度。
Nov, 2023
通过使用极相表达形式作为替代传统方法的更高效的选择,我们的方法在CIFAR-10和CIFAR-100数据集上相较于现代CNN架构采用的矩形形式,实现了训练和推断速度的最高提升分别达到1.376和1.390。同时,我们的方法可应用于任何基于卷积的深度学习模型,而无需进行设计更改。
Jun, 2024