Dec, 2023

加速器驱动的数据排列在多核架构上最小化变压器运行时间

TL;DR提出了一种新颖的内存数据排列策略,通过硬件加速器的内核大小来有效减小芯片外数据访问,特别对于基于广义矩阵乘法(GEMM)的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法,证明了该方法能够实现高达 2.8 倍的速度提升。