Im2win:基于SIMD结构的内存高效卷积
本研究介绍了一种基于任务分解的并行算法ZNN,它能够在计算机视觉中应用广泛的卷积神经网络中实现PRAM模型下的线性加速,通过时间局部化和一种几乎无等待的并发方法,此算法能够在共享内存机器上达到与物理核心数量相当的加速效果,适用于宽网络结构。此算法基于CPU的任务并行性,与GPU的SIMD并行性相比,ZNN的开发和维护成本相对较低。
Oct, 2015
本文提出一种具有内存效率的卷积方法,即MEC,使用简单且高效/紧凑的方式降低输入矩阵的内存开销,提高卷积运算速度,显著减少内存消耗,在移动设备和服务器平台上都具有良好的加速效果,适用于卷积运算的深度神经网络模型。
Jun, 2017
本文提出两种新型基于GEMM的算法,分别只需要额外的O(MHW)和O(KW)的空间,显著降低了DNN卷积的空间开销,适用于内存受限的嵌入式系统,并且实验表明我们的低内存算法和最好的图案构建方法一样快,尽管需要的额外内存只相当于后者的一小部分。
Sep, 2017
本篇论文研究并证明了,当直接卷积实现正确时,消除了所有的内存开销,且效率在传统和嵌入式CPU架构上比现有的高性能卷积实现提高了10%到400%不等,并可以更好地扩展性能,即增加线程数时的性能下降更少。
Sep, 2018
使用Indirect Convolution算法实现卷积操作,避免了传统GEMM算法中需要进行im2col转换所带来的数据重排和内存开销,并可以适用于更大的卷积核、填充、步幅和膨胀率。
Jul, 2019
本文提出了基于im2win的卷积范式,旨在通过持续的内存访问提高性能,并经过了优化技术的改进,与其他基于cuBLAS和cuDNN的卷积实现相比,内存占用少23.1%至32.8%,性能提高了3.5倍至155倍。
Jun, 2023
滑动窗口求和算法在深度神经网络的训练和推理中取得了成功。本文通过对滑动窗口卷积技术的广泛研究,作为常用的通用矩阵乘法(GEMM)卷积的一种更高效的替代方法,解决了内存膨胀问题,并在二维卷积中展示了显著的加速效果。我们在多种实现方式上探索了该技术的性能,包括针对特定滤波器尺寸的自定义内核。结果表明,在CPU甚至专用硬件加速器上,滑动窗口计算内核可以优于基于GEMM的卷积。这将推动AI在低功耗和低内存设备上的更广泛应用,无需专用硬件。同时,我们还讨论了模型压缩方法和优化网络架构与滑动窗口技术的兼容性,鼓励进一步在这些领域开展研究。
Oct, 2023
通过使用ConvBench基准测试方法,该研究发现Sliced Convolution (SConv)算法在79.5%的卷积操作中存在性能下降问题,为改进卷积算法的设计师提供了新的优化方向。
Jul, 2024
该研究解决了在SIMD架构上卷积操作性能不足的问题,提出了三种新颖的张量数据布局:NHWC、CHWN和CHWN8,并引入了通用的优化技术。实验结果显示,新的NHWC布局使得im2win卷积的性能提升达355%,同时优化后的卷积方法显著提高了整体性能,有望推动深度学习模型的计算效率。
Aug, 2024