Mar, 2019

在广泛使用的移动 CPU 上高效实现 Winograd 或 Cook-Toom 卷积核

TL;DR本文针对移动设备上广泛使用的 ARM Cortex-A CPU,探讨了 Winograd 或 Cook-Toom 特征压缩算法在卷积神经网络上的高效实现,通过优化计算资源的利用和充分发挥 ARMv8-A NEON SIMD 指令集等策略降低了推断延迟,并在数个代表性 CNN 上进行了模型评估,结果显示相比现有的 im2row/im2col 基于优化技术,可在全网络中提高 60% 左右的性能。