Aug, 2024
基于三种张量布局在SIMD架构上的高性能Im2win和直接卷积
High Performance Im2win and Direct Convolutions using Three Tensor
Layouts on SIMD Architectures
TL;DR该研究解决了在SIMD架构上卷积操作性能不足的问题,提出了三种新颖的张量数据布局:NHWC、CHWN和CHWN8,并引入了通用的优化技术。实验结果显示,新的NHWC布局使得im2win卷积的性能提升达355%,同时优化后的卷积方法显著提高了整体性能,有望推动深度学习模型的计算效率。