Im2win:基于 SIMD 结构的内存高效卷积
本文提出了基于 im2win 的卷积范式,旨在通过持续的内存访问提高性能,并经过了优化技术的改进,与其他基于 cuBLAS 和 cuDNN 的卷积实现相比,内存占用少 23.1% 至 32.8%,性能提高了 3.5 倍至 155 倍。
Jun, 2023
使用 Indirect Convolution 算法实现卷积操作,避免了传统 GEMM 算法中需要进行 im2col 转换所带来的数据重排和内存开销,并可以适用于更大的卷积核、填充、步幅和膨胀率。
Jul, 2019
本文提出两种新型基于 GEMM 的算法,分别只需要额外的 O (MHW) 和 O (KW) 的空间,显著降低了 DNN 卷积的空间开销,适用于内存受限的嵌入式系统,并且实验表明我们的低内存算法和最好的图案构建方法一样快,尽管需要的额外内存只相当于后者的一小部分。
Sep, 2017
本文提出一种具有内存效率的卷积方法,即 MEC,使用简单且高效 / 紧凑的方式降低输入矩阵的内存开销,提高卷积运算速度,显著减少内存消耗,在移动设备和服务器平台上都具有良好的加速效果,适用于卷积运算的深度神经网络模型。
Jun, 2017
本文提出了一种新的 MCMK 卷积方法,能够在不使用 im2col 的情况下将卷积核应用于输入图像,相比 im2col 方法,该方法在 CPU 上的速度更快。
Apr, 2017
本研究提出了一种基于核激活值的算法级优化技术,将原始内核分成四个子内核,从而降低了内存需求和不必要的乘法运算,提高了转置卷积层的计算效率。实验结果显示,采用所提出的优化方法比传统实现快 $2.2$ 倍。
Sep, 2022
滑动窗口求和算法在深度神经网络的训练和推理中取得了成功。本文通过对滑动窗口卷积技术的广泛研究,作为常用的通用矩阵乘法(GEMM)卷积的一种更高效的替代方法,解决了内存膨胀问题,并在二维卷积中展示了显著的加速效果。我们在多种实现方式上探索了该技术的性能,包括针对特定滤波器尺寸的自定义内核。结果表明,在 CPU 甚至专用硬件加速器上,滑动窗口计算内核可以优于基于 GEMM 的卷积。这将推动 AI 在低功耗和低内存设备上的更广泛应用,无需专用硬件。同时,我们还讨论了模型压缩方法和优化网络架构与滑动窗口技术的兼容性,鼓励进一步在这些领域开展研究。
Oct, 2023
本文介绍了针对 x86 体系结构的直接卷积核和动态编译方法实现的 JIT 优化内核,该内核可在多节点下高效执行最新的图像识别任务,使单机和多节点运行时高效地通过 CPU 执行任务的高吞吐量。
Aug, 2018
本文针对移动设备上广泛使用的 ARM Cortex-A CPU,探讨了 Winograd 或 Cook-Toom 特征压缩算法在卷积神经网络上的高效实现,通过优化计算资源的利用和充分发挥 ARMv8-A NEON SIMD 指令集等策略降低了推断延迟,并在数个代表性 CNN 上进行了模型评估,结果显示相比现有的 im2row/im2col 基于优化技术,可在全网络中提高 60% 左右的性能。
Mar, 2019
本篇论文研究并证明了,当直接卷积实现正确时,消除了所有的内存开销,且效率在传统和嵌入式 CPU 架构上比现有的高性能卷积实现提高了 10% 到 400% 不等,并可以更好地扩展性能,即增加线程数时的性能下降更少。
Sep, 2018