May, 2024

在一个开源的 RISC-V 多微核平台上优化基础模型推理

TL;DR通过实现分布式 Softmax 原语并利用 ISA 扩展进行 SIMD 浮点操作数流和指令重复,以及专门的 DMA 引擎来最小化昂贵的主内存访问和容忍其延迟,在开源的 RISC-V 平台上呈现了第一批全流程的 Transformer 模型推理结果。对于仅编码器模型,我们展示了最优实现与基线版本之间高达 12.8 倍的加速比;同时在 HW 平台上实现可比较的计算单位吞吐量,FPU 利用率超过 79%和 294 GFLOPS/W,并比 SoA 加速器实现 2 倍以上的性能。对于仅解码器模型,与基线实现相比,在非自回归(NAR)模式下实现 16.1 倍的加速,而在自回归(AR)模式下实现高达 35.6 倍的加速。与最佳 SoA 专用加速器相比,我们实现了高 2.04 倍的 FPU 利用率。