Apr, 2024

非 GEMM 基准:通过非 GEMM 工作负载了解最新机器学习工作负载的性能边界

TL;DR机器学习 (ML) 运算符是设计具有不同目标应用的 ML 模型的基本构建模块。GEneral Matrix Multiplication (GEMM) 运算符是 ML 模型的基础,但在计算上非常昂贵,因此需要对其进行研究和优化以加快 ML 模型的执行速度。然而,非 GEMM 运算符的性能尚未像 GEMMs 那样进行深入研究,因此本文介绍了一种用于研究非 GEMM 运算符的基准测试,通过使用来自不同领域的流行 ML 工作负载构建 ench,然后在各个等级的 GPU 平台上进行案例研究,以分析 GPU 加速系统中非 GEMM 运算符的行为,并提供一些关键性的发现,以弥合 GEMM 和非 GEMM 运算符之间的差距,并为社区提供潜在的新的优化方向。