Apr, 2023

在 CPU 体系结构上通过高级循环和张量抽象利用深度学习和 HPC 核心技术

TL;DR该研究提出了一种用于开发高效、可移植的深度学习和高性能计算内核的框架,通过使用 Tensor Processing Primitives (TPPs) 表达计算核心,并通过简单的旋钮确定精确的实例化,我们在不同的 CPU 平台上展示了单独的核心和端到端工作负载,超越了现有技术的实现。