Aug, 2018
基于 SIMD 架构的高性能深度学习卷积解剖学
Anatomy Of High-Performance Deep Learning Convolutions On SIMD Architectures
Evangelos Georganas, Sasikanth Avancha, Kunal Banerjee, Dhiraj Kalamkar, Greg Henry...
TL;DR本文介绍了针对 x86 体系结构的直接卷积核和动态编译方法实现的 JIT 优化内核,该内核可在多节点下高效执行最新的图像识别任务,使单机和多节点运行时高效地通过 CPU 执行任务的高吞吐量。