Oct, 2023

在普通硬件上加速机器学习基元

TL;DR滑动窗口求和算法在深度神经网络的训练和推理中取得了成功。本文通过对滑动窗口卷积技术的广泛研究,作为常用的通用矩阵乘法(GEMM)卷积的一种更高效的替代方法,解决了内存膨胀问题,并在二维卷积中展示了显著的加速效果。我们在多种实现方式上探索了该技术的性能,包括针对特定滤波器尺寸的自定义内核。结果表明,在 CPU 甚至专用硬件加速器上,滑动窗口计算内核可以优于基于 GEMM 的卷积。这将推动 AI 在低功耗和低内存设备上的更广泛应用,无需专用硬件。同时,我们还讨论了模型压缩方法和优化网络架构与滑动窗口技术的兼容性,鼓励进一步在这些领域开展研究。