基于低内存 GEMM 的深度神经网络卷积算法
本文提出了基于 im2win 的卷积范式,旨在通过持续的内存访问提高性能,并经过了优化技术的改进,与其他基于 cuBLAS 和 cuDNN 的卷积实现相比,内存占用少 23.1% 至 32.8%,性能提高了 3.5 倍至 155 倍。
Jun, 2023
提出了一种名为 im2win 的内存高效数据转换算法,能够实现连续的内存访问和数据重用,从而大大降低内存开销,同时通过各种优化实现高性能二维卷积,平均可以将内存开销降低到 41.6%,相对于 im2col 和不使用数据转换,性能平均提高了 3.6 倍和 5.3 倍。
Jun, 2023
本文提出了一种新的 MCMK 卷积方法,能够在不使用 im2col 的情况下将卷积核应用于输入图像,相比 im2col 方法,该方法在 CPU 上的速度更快。
Apr, 2017
使用 Indirect Convolution 算法实现卷积操作,避免了传统 GEMM 算法中需要进行 im2col 转换所带来的数据重排和内存开销,并可以适用于更大的卷积核、填充、步幅和膨胀率。
Jul, 2019
本文介绍了一种名为 NGEMM 的基于编译器的 GEMM 实现方法,用于加速低精度 DNN 的训练和推理。与 MKL 等库相比,NGEMM 的性能表现更优,平均速度提升了 1.86 倍。
Oct, 2019
本文提出一种具有内存效率的卷积方法,即 MEC,使用简单且高效 / 紧凑的方式降低输入矩阵的内存开销,提高卷积运算速度,显著减少内存消耗,在移动设备和服务器平台上都具有良好的加速效果,适用于卷积运算的深度神经网络模型。
Jun, 2017
本研究提出了一种新的框架 NeuralMatrix,可以在一个单一的通用矩阵乘法加速器上计算多功能的深度神经网络,同时在性能和特定应用的加速水平方面与 CPU 和 GPU 等通用处理器相比具有优势。
May, 2023
滑动窗口求和算法在深度神经网络的训练和推理中取得了成功。本文通过对滑动窗口卷积技术的广泛研究,作为常用的通用矩阵乘法(GEMM)卷积的一种更高效的替代方法,解决了内存膨胀问题,并在二维卷积中展示了显著的加速效果。我们在多种实现方式上探索了该技术的性能,包括针对特定滤波器尺寸的自定义内核。结果表明,在 CPU 甚至专用硬件加速器上,滑动窗口计算内核可以优于基于 GEMM 的卷积。这将推动 AI 在低功耗和低内存设备上的更广泛应用,无需专用硬件。同时,我们还讨论了模型压缩方法和优化网络架构与滑动窗口技术的兼容性,鼓励进一步在这些领域开展研究。
Oct, 2023
本篇论文研究并证明了,当直接卷积实现正确时,消除了所有的内存开销,且效率在传统和嵌入式 CPU 架构上比现有的高性能卷积实现提高了 10% 到 400% 不等,并可以更好地扩展性能,即增加线程数时的性能下降更少。
Sep, 2018
通过扩展和优化快速 Winograd 级卷积算法,我们在 CPU 硬件上最大化 CPU 利用率及多核可伸缩性,处理了视频和体积图像分析中的空时特征,并证明了与之前的最先进技术相比,吞吐量提高了 5 到 25 倍。
Nov, 2016