PartIR: 机器学习 SPMD 划分策略的构建

Jan, 2024

PartIR: 机器学习 SPMD 划分策略的构建

PartIR: Composing SPMD Partitioning Strategies for Machine Learning

Sami Alabed, Bart Chrzaszcz, Juliana Franco, Dominik Grewe, Dougal Maclaurin...

TL;DR现代大型神经网络（NN）的训练需要结合数据、模型或优化器分片等并行化策略。当策略变得越来越复杂时，分区工具需要具备 1）表达能力，以允许复合简单的策略，2）可预测性，以便分析性能估计。我们提出了 PartIR，一种 NN 分区系统的设计。PartIR 着重于增量重写，并且不依赖于具体硬件和运行时环境。我们提供了一个简单但强大的 API 用于组合分片策略，并提供模拟器进行验证。该过程由高级程序员指定的分区策略驱动，可以手动或自动执行。重要的是，这些策略与模型代码分开指定，易于更改。我们在多个不同的模型上评估了 PartIR，以展示其可预测性、表达能力和达到峰值性能的能力。

Abstract

Training of modern large neural networks (NN) requires a combination of parallelization strategies encompassing data, model, or optimizer sharding. When strategies increase in complexity, it becomes necessary for partitioning tools to be 1) expressive, allowing the composition of simpl

neural networks partitioning strategies performance estimation api design simulation

发现论文，激发创造

通过人工合成的中间标签进行分区神经网络训练

通过将模型划分到多个 GPU 上并生成合成中间标签来训练各个部分，以减少数据通信和保持模型准确性为目标，该研究证实了该方法在减少内存和计算需求的同时实现了类似传统训练方法的测试准确性，从而减轻了训练大型神经网络的资源密集性，为更高效的深度学习模型开发铺平了道路。

Mar, 2024

分布式图神经网络训练的分区策略实验比较

本文研究了图分区对分布式图神经网络训练的有效性，发现图分区是一个关键的预处理步骤，能够大大减少训练时间和内存占用，同时也证明了分区所需的时间可以通过减少图神经网络训练时间加以弥补。

Aug, 2023

学习空间数据分区

本文研究了分布式空间数据分析的机器学习方法，并提出了一种新的深度强化学习算法来有效地分配大量的空间数据给计算机，通过实验证明，此方法可加速距离连接查询，减少任务运行时间长达 59.4%。

Jun, 2023

通过并行次模逼近进行图分区以加速分布式机器学习

该论文提出了一种基于图分割的分布式计算算法，其可以有效降低数据分布式处理过程中的通信成本，实验结果表明该算法能够在机器学习系统中实现 1.6 倍的加速，并且消除 90％的网络通信。

May, 2015

可微随机分区模型

提出了一种新的两步方法来推断随机分区模型的参数，允许可变推断任务的使用，并具有可重参数化梯度，能够在对参数进行端到端基于梯度的优化时克服先前方法的限制，本方法在三个具有挑战性的实验中显示出了它的通用性。

May, 2023

通过神经网络分区进行超参数优化

本篇论文提出了一种简单且高效的方法来优化神经网络的超参数，采用无需验证数据的优化目标 —— 边缘似然来实现，将训练数据和神经网络模型分别划分为 $K$ 个数据分片和参数分区，仅在特定的数据分片上关联并优化每个分区，然后将这些分区组合成子网络，通过所定义的子网络的 “训练外样本” 损失作为超参数优化的目标来优化多种不同类型的超参数。最后，该方法特别适用于在联邦学习中优化超参数的情况，其中重新训练和交叉验证尤为具有挑战性。

Apr, 2023

GSPMD: 用于 ML 计算图的通用可扩展并行化

GSPMD 是一种自动的、基于编译器的并行化系统，可用于对机器学习计算进行并行处理，它使用少量标注进行张量分布，能够在各种模型上表达不同的并行化范式，并解决了多个技术挑战，可在具有万亿级参数的模型上实现 50％至 62％的计算利用率。

May, 2021

基于 SplitNN 的垂直分区

本文介绍了 SplitNN 驱动的垂直分区，是一种名为 SplitNN 的分布式深度学习方法的一种配置，以便从垂直分布的特征中进行学习。该方法可以在持有不同数据源的机构之间进行培训，而不需要复杂的加密算法或安全计算协议。该方法具有灵活性，并允许许多不同的配置来解决垂直分割数据集提出的具体挑战。与几种配置组合模型的输出进行评估，比较性能和资源效率。

Aug, 2020

一种利用深度 Q 网络和系统分割的入侵响应系统

本文介绍了一种名为 irs-partition 的 IRS 软件原型，利用保护系统的分区和深度 Q 网络来解决维护系统增长的问题，并利用转移学习来跟踪非稳态系统的演变。

Feb, 2022

WawPart: 知识图谱的工作负载感知分区

本研究提出了一种基于查询工作负载的知识图谱分区方法，通过聚类查询和重写查询来减少分布式关联并优化工作负载性能。实验结果表明了该方法在工作负载处理时间上的性能提高。

Mar, 2022