本文提出了一种使用 Fourier 变换和 GPU 架构,加速卷积网络的训练和推理的算法,并在现有技术的基础上取得了数量级上的改善。
Dec, 2013
本研究通过探索多种快速卷积算法,包括 Winograd 和 FFT,并发现了一种将它们应用于不同类型卷积的最佳策略;实现在基于高级综合的可配置 IP 人脸识别加速系统中使用 FaceNet,并利用并行化的优化方案在新型 CNN 体系结构上,实现比高端 NVIDIA GPU 快 3.75 倍的延迟加速,并显著超过先前的 FPGA 结果。
Mar, 2018
使用 “重叠相加” 技术和快速傅里叶变换来减少卷积神经网络中卷积层的计算时间,实现了更高效的向前和向后传播。
Jan, 2016
比较了三种高度优化的实现方式(常规 FFT、Gauss-FFT 和 Winograd-based convolution)在现代多核和众核 CPU 上的效果,并使用 Roofline 性能模型对三种方法的计算阶段进行了详细的分析,结果显示 FFT-based 实现通常优于 Winograd-based approach。
Sep, 2018
通过优化卷积神经网络架构和使用融合块核心技术,实现了计算效率和准确性的提升。
Apr, 2024
本文研究了卷积神经网络在当前 NVIDIA 图形处理器上的性能,介绍了两种新的快速傅立叶变换卷积实现,对于整个 CNN,fbfft 比 cuFFT 快 1.5 倍以上,并且对于许多普通的卷积层,速度也比 NVIDIA 的 cuDNN 实现 快(达到了一些合成内核配置的 23.5 倍)。
Dec, 2014
通过扩展和优化快速 Winograd 级卷积算法,我们在 CPU 硬件上最大化 CPU 利用率及多核可伸缩性,处理了视频和体积图像分析中的空时特征,并证明了与之前的最先进技术相比,吞吐量提高了 5 到 25 倍。
Nov, 2016
本文旨在加速卷积神经网络(CNNs)的测试时间计算,特别是对计算机视觉领域产生重大影响的非常深的 CNNs。通过开发一种不需要随机梯度下降(SGD)的有效解决方案,解决产生的非线性优化问题,我们提出了一种新的非线性方法,在对多个层进行逼近时实现了一种不对称重建,以减少快速积累误差,并成功地在 Object detection 中实现了优雅的精度降级。
May, 2015
该研究将卷积神经网络推广到高维不规则图像中,通过谱图理论提出了一种卷积滤波器设计方法,在保持线性和常数学习复杂度的同时,实现了对任意图结构的卷积作用,成功在图像识别领域实现了局部、平稳、组合特征的学习。
Jun, 2016
本文介绍了一种修改版 CNN 框架 Caffe,该框架支持 FPGA 实现,并使用 Xilinx SDAccel 环境实现了基于 FPGA 的 Winograd 卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的 CNN 模型,取得了 50 GFLOPS 的成果。
Sep, 2016