Im2win:GPU 上的高效卷积操作
本文研究了卷积神经网络在当前NVIDIA图形处理器上的性能,介绍了两种新的快速傅立叶变换卷积实现,对于整个CNN,fbfft比cuFFT快1.5倍以上,并且对于许多普通的卷积层,速度也比NVIDIA的cuDNN实现 快(达到了一些合成内核配置的23.5倍)。
Dec, 2014
本研究介绍了一种基于任务分解的并行算法ZNN,它能够在计算机视觉中应用广泛的卷积神经网络中实现PRAM模型下的线性加速,通过时间局部化和一种几乎无等待的并发方法,此算法能够在共享内存机器上达到与物理核心数量相当的加速效果,适用于宽网络结构。此算法基于CPU的任务并行性,与GPU的SIMD并行性相比,ZNN的开发和维护成本相对较低。
Oct, 2015
本文探讨了对于卷积神经网络的内存效率的优化,以及其对性能的影响,并提出了数据布局及内存访问模式方面的优化策略。实验证明,这些策略不仅对于单个层面有效,对于整个神经网络也可获得高达27.9倍和5.6倍的速度提升。
Oct, 2016
本文提出一种具有内存效率的卷积方法,即MEC,使用简单且高效/紧凑的方式降低输入矩阵的内存开销,提高卷积运算速度,显著减少内存消耗,在移动设备和服务器平台上都具有良好的加速效果,适用于卷积运算的深度神经网络模型。
Jun, 2017
本文提出两种新型基于GEMM的算法,分别只需要额外的O(MHW)和O(KW)的空间,显著降低了DNN卷积的空间开销,适用于内存受限的嵌入式系统,并且实验表明我们的低内存算法和最好的图案构建方法一样快,尽管需要的额外内存只相当于后者的一小部分。
Sep, 2017
本研究旨在通过对卷积神经网络的通道剪枝方法进行优化,以提高在移动和嵌入式设备上的计算效率,虽然有些情况下通道剪枝算法可能会损害计算性能,但是我们还是发现采用基于性能的剪枝会达到预期的效果。
Feb, 2020
提出了一种名为im2win的内存高效数据转换算法,能够实现连续的内存访问和数据重用,从而大大降低内存开销,同时通过各种优化实现高性能二维卷积,平均可以将内存开销降低到41.6%,相对于im2col和不使用数据转换,性能平均提高了3.6倍和5.3倍。
Jun, 2023
滑动窗口求和算法在深度神经网络的训练和推理中取得了成功。本文通过对滑动窗口卷积技术的广泛研究,作为常用的通用矩阵乘法(GEMM)卷积的一种更高效的替代方法,解决了内存膨胀问题,并在二维卷积中展示了显著的加速效果。我们在多种实现方式上探索了该技术的性能,包括针对特定滤波器尺寸的自定义内核。结果表明,在CPU甚至专用硬件加速器上,滑动窗口计算内核可以优于基于GEMM的卷积。这将推动AI在低功耗和低内存设备上的更广泛应用,无需专用硬件。同时,我们还讨论了模型压缩方法和优化网络架构与滑动窗口技术的兼容性,鼓励进一步在这些领域开展研究。
Oct, 2023
该研究解决了在SIMD架构上卷积操作性能不足的问题,提出了三种新颖的张量数据布局:NHWC、CHWN和CHWN8,并引入了通用的优化技术。实验结果显示,新的NHWC布局使得im2win卷积的性能提升达355%,同时优化后的卷积方法显著提高了整体性能,有望推动深度学习模型的计算效率。
Aug, 2024