Mar, 2016

在 GPU 上并行化大规模矩阵分解以提高速度和降低成本

TL;DR本论文介绍了 cuMF, 一种基于 CUDA 的矩阵分解库,利用 GPU 技术,采用内存优化的交替最小二乘法(ALS)方法解决非常大规模的 MF 问题,并利用各种技术在单个或多个 GPU 上最大化其性能。与分布式 CPU 解决方案相比,cuMF 仅使用具有 4 个 Nvidia GPU 卡的单个机器就能够快 6-10 倍,成本效益高达 33-100 倍。