Feb, 2022

从不同的候选者学习,在张量核上优化降低精度卷积程序

TL;DR这篇论文提出了一种基于 Tensor Core 和 MMA 指令的卷积操作优化方法,该方法通过自动调度探索线程块和 warp 尺寸的搜索空间,包括寄存器级 Packing 和布局优化等选项,使用学习算法找到最佳调度,从而比现有技术在 Tensor Core 上实现了大幅度加速。