Feb, 2022
从不同的候选者学习,在张量核上优化降低精度卷积程序
Learning from distinctive candidates to optimize reduced-precision
convolution program on tensor cores
TL;DR这篇论文提出了一种基于Tensor Core和MMA指令的卷积操作优化方法,该方法通过自动调度探索线程块和warp尺寸的搜索空间,包括寄存器级Packing和布局优化等选项,使用学习算法找到最佳调度,从而比现有技术在Tensor Core上实现了大幅度加速。