UniAP: 统一的跨层和内层自动并行化方法：混合整数二次规划

Jul, 2023

UniAP: 统一的跨层和内层自动并行化方法：混合整数二次规划

UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming

Hao Lin, Ke Wu, Jun Li, Wu-Jun Li

TL;DR深度学习模型的训练时间长依然是一个关键问题，提出了自动并行化来解决这个问题，并提出了 UniAP 方法来统一内部和外部自动并行化，实验证明 UniAP 在吞吐量上超过了现有方法 1.70 倍，并且减少了搜索时间 16 倍。

Abstract

deep learning models have demonstrated impressive performance in various domains. However, the prolonged training time of these models remains a critical problem. Manually designed →

deep learning models training time parallel training strategies automatic parallelism uniap

发现论文，激发创造

Alpa：分布式深度学习的操作员内部和操作员间并行性自动化

Alpa 是一个自动化生成深度学习（DL）大型模型的模型并行训练执行计划的系统，它利用数据、算子和流水线并行性来生成执行计划，实现了两个层次的并行性：算子内和算子间，并且通过编译器的优化自动得出高效的并行执行计划，并在分布式计算设备上进行了成功的评估。

Jan, 2022

TAP: 通过张量自动并行化加速大规模深度神经网络训练

本文提出了一种模型并行框架 TAP，利用神经网络作为有向无环图的性质，设计了一种图剪枝算法以高效地搜索最佳的数据和张量并行计划，实验表明 TAP 比现有自动并行化框架快 20-160 倍，并且其发现的并行化计划比专家设计的计划具有竞争力。

Feb, 2023

AUTOPARLLM: 使用大型语言模型的 GNN 引导自动代码并行化

AUTOPARLLM 是一个用于自动发现并生成顺序程序的并行版本的框架，通过使用异构图神经网络（GNN）进行并行性发现和并行模式检测，并结合 LLM 代码生成器，能够有效改善并行代码生成任务中的多个代码生成指标，并且通过引入 OMPScore 衡量方法，提供了一种优于现有指标的评估生成代码质量的方法。

Oct, 2023

UniPT: 通用并行调优的高效参数和内存迁移学习

提出了一种名为 Universal Parallel Tuning (UniPT) 的新型内存高效 PETL 策略，通过轻量级的可学习并行网络进行传输过程，减少内存消耗，并在不同架构上在低内存场景下实现更高的性能。

Aug, 2023

通过平衡内存负载优化改善自动并行训练

本文介绍了一种系统框架 Galvatron-BMW，集成了多种普遍的并行性维度，并自动识别最高效的混合并行性策略，该系统在不同的 Transformer 模型下展示了 Galvatron-BMW 自动分布式训练的能力。

Jul, 2023

ML/DL 模型中数据流图的自动任务并行化

我们提出了一种基于关键路径的线性聚类方法，利用机器学习数据流图中的并行路径来优化图的结构，从而加速串行执行速度，并在编译和运行时优于一些当前机制。

Aug, 2023

深度神经网络的数据和模型并行化之外

本文提出了一个名为 SOAP 的深度神经网络并行化搜索空间，并使用指导性随机搜索来发现特定并行计算机的快速并行化策略，并提出了一种新型执行模拟器，可精确预测并行化策略的性能，可将训练吞吐量提高多达 3.8 倍，并提高了可扩展性。

Jul, 2018

探索卷积神经网络并行化中的隐藏维度

本文提出了一种层级并行的方法来训练深度卷积神经网络，在这种方法中，每层神经网络都可以应用不同的并行策略以优化训练，通过解决图搜索问题来协同优化每个层的并行化方式。实验结果表明，与现有的并行化方法相比，采用该方法可以提高训练吞吐量，降低通信成本，实现更好的多 GPU 可扩展性，并保持原始网络的准确性。

Feb, 2018

APAR: LLMs 可以进行自动并行自回归解码

通过并行自回归生成的方法以及与推理解码相结合，可以显著提高大型语言模型的生成速度和性能。

Jan, 2024

模拟退火算法实现的无监督释义

我们提出了一种新方法 UPSA，它利用模拟退火实现无监督的同义词生成。我们将同义词生成建模为一个优化问题，并提出了一个复杂的目标函数，涉及同义词的语义相似性、表达多样性和语言流畅性。然后，UPSA 通过执行一系列局部编辑来朝着这个目标搜索句子空间。我们的方法是无监督的，不需要平行语料库进行训练，因此可以轻松应用于不同的领域。我们在各种基准数据集上评估了我们的方法，即 Quora、Wikianswers、MSCOCO 和 Twitter 等。广泛的结果表明，UPSA 在自动和人工评估方面都实现了与以前的无监督方法相比的最先进性能。此外，我们的方法优于大多数现有的领域自适应监督模型，显示了 UPSA 的通用性。

Sep, 2019