Jun, 2016

在 CPU 和 GPU 上使用扩展 BLAS 核函数的张量缩并

TL;DR本文提出了一种名为 STRIDEDBATCHEDGEMM 的 BLAS-like 原语,该原语可以在 CPU 和 GPU 上高效地执行各种张量收缩操作,并通过系统性基准测试证明了我们的方法相对于传统方法的优势。具体而言,我们实现了 Tucker 分解,并展示了使用我们的核心相对于使用现有技术的库实现的速度提升高达 100 倍。