GraphLab: 并行机器学习的新框架

Aug, 2014

GraphLab: A New Framework For Parallel Machine Learning

Yucheng Low, Joseph E. Gonzalez, Aapo Kyrola, Danny Bickson, Carlos E. Guestrin...

TL;DR通过针对机器学习中常见程序设计模式进行设计，使用 GraphLab 可以实现异步迭代算法的紧凑表达，同时保证数据一致性和高并行性能，将并行性能优化的提升应用于大规模实际问题中，并取得了很好的表现。

Abstract

Designing and implementing efficient, provably correct parallel machine learning (ML) algorithms is challenging. Existing high-level parallel abstractions like MapReduce are insufficiently expressive while low-level tools like MPI and Pthreads leave ML experts repeatedly solving the same design challenges. By targeting common patterns in ML, we developed

parallel machine learning graphlab asynchronous iterative algorithms data consistency high-degree parallel performance

发现论文，激发创造

云中机器学习的分布式 GraphLab 框架

本文介绍了 GraphLab 抽象并将其扩展到更具挑战性的分布式环境中，在保证数据一致性的同时，采取图形扩展 pipelined locking 和数据版本控制，以减少网络拥塞和缓解网络延迟的影响，通过 Chandy-Lamport 快照算法实现 GraphLab 抽象的容错，并在 Amazon EC2 系统上进行了分布式的 GraphLab 抽象实现，展示了与基于 Hadoop 实现相比 1-2 个数量级的性能提升。

Apr, 2012

ML/DL 模型中数据流图的自动任务并行化

我们提出了一种基于关键路径的线性聚类方法，利用机器学习数据流图中的并行路径来优化图的结构，从而加速串行执行速度，并在编译和运行时优于一些当前机制。

Aug, 2023

GraphX: 统一数据并行和图并行分析

GraphX 是一个分布式图计算框架，旨在统一图并行和数据并行计算，解决了构建图、修改结构和跨多个图表达计算的困难，评估结果显示在端到端图处理管道中表现优异。

Feb, 2014

ProGraML: 基于图的深度学习用于程序优化和分析

ProGraML 是一种使用低级别、语言无关和可移植格式的新颖基于图的程序表示，其中包含能够对整个程序或每个顶点执行分类任务的机器学习模型，其提供了一种通用的程序表示，使可学习的模型能够执行优化所必需的程序分析类型，并在传统编译器分析任务、异构设备映射和程序分类等高级任务方面取得了具有以下优势的最新性能：94.0 F1 评分

Mar, 2020

GSPMD: 用于 ML 计算图的通用可扩展并行化

GSPMD 是一种自动的、基于编译器的并行化系统，可用于对机器学习计算进行并行处理，它使用少量标注进行张量分布，能够在各种模型上表达不同的并行化范式，并解决了多个技术挑战，可在具有万亿级参数的模型上实现 50％至 62％的计算利用率。

May, 2021

DEAP：DNN 加速器并行性的设计空间探索

这篇论文展示了硬件和软件的协同设计如何为特定的大型语言模型工作负载创建定制的硬件系统，通过模型并行技术和多加速器仿真框架实现效率度量，重点关注推理工作负载并报告多种软硬件配置下的功耗、周期和延迟度量。

Dec, 2023

并行机器学习算法的性能和能耗

本文讨论了在高性能计算中，采用低功率算法以优化机器学习模型的效率，并测试逻辑回归、神经网络等算法在不同数据规模、模型复杂度下的并行加速表现。

May, 2023

深度图库：面向图的、高性能的图神经网络包

本文介绍了 Deep Graph Library（DGL）的设计原则和实现方法，DGL 将 GNNs 的计算模式提炼成几个泛化的稀疏张量操作，适合大规模并行化。DGL 以图形为中心编程抽象，能够透明地进行优化。同时 DGL 采用了框架中立的设计，允许用户在多个深度学习框架中轻松移植和利用现有的组件。我们的评估表明，在各种基准测试中，DGL 在速度和内存消耗方面都显著优于其他流行的面向 GNNs 的框架，并且对于小规模工作负载的开销很小。

Sep, 2019

理论上高效的并行图算法可以快速且可扩展

本研究使用理论高效的并行图算法和优化技术，结合大规模图分析，能够使单机具有 1TB 内存的计算机在几分钟内处理超过 35 亿个节点和 1280 亿条边的实际网络图像。同时，研究组将开发的这些算法公开提供给社区，以用作图算法效果评价指标的基准。

May, 2018

Petuum：一个基于大数据分布式机器学习的新平台

本研究提出了一个通用的框架，通过观察到许多机器学习程序基于优化，容忍误差，迭代收敛算法解决方案，以系统地解决大规模机器学习中的数据和模型并行挑战，具有 ML 程序结构的有界误差网络同步和动态调度设计等系统设计，证明了这些系统设计比现代 ML 算法已知的实现更加高效，甚至可以在较小的计算集群上运行更少时间和更大的模型尺寸。

Dec, 2013