Jul, 2016

基于三个案例研究的 Spark 和 C+MPI 在规模化矩阵分解上的科学数据分析比较

TL;DR探讨在 HPC 平台上使用 Apache Spark 进行线性代数与传统的 C 和 MPI 实现之间的权衡。我们考察了三种常用的矩阵分解方法:NMF、PCA 和 CX,并将它们应用于 TB 级的问题,包括粒子物理学、气候模拟和生物成像。我们在高达 1600 个 Cray XC40 节点上进行了扩展性实验,描述了减速的来源,并提供调整指南以获得高性能。