UniAP: 统一的跨层和内层自动并行化方法:混合整数二次规划
Alpa 是一个自动化生成深度学习(DL)大型模型的模型并行训练执行计划的系统,它利用数据、算子和流水线并行性来生成执行计划,实现了两个层次的并行性:算子内和算子间,并且通过编译器的优化自动得出高效的并行执行计划,并在分布式计算设备上进行了成功的评估。
Jan, 2022
本文提出了一种模型并行框架 TAP,利用神经网络作为有向无环图的性质,设计了一种图剪枝算法以高效地搜索最佳的数据和张量并行计划,实验表明 TAP 比现有自动并行化框架快 20-160 倍,并且其发现的并行化计划比专家设计的计划具有竞争力。
Feb, 2023
AUTOPARLLM 是一个用于自动发现并生成顺序程序的并行版本的框架,通过使用异构图神经网络(GNN)进行并行性发现和并行模式检测,并结合 LLM 代码生成器,能够有效改善并行代码生成任务中的多个代码生成指标,并且通过引入 OMPScore 衡量方法,提供了一种优于现有指标的评估生成代码质量的方法。
Oct, 2023
提出了一种名为 Universal Parallel Tuning (UniPT) 的新型内存高效 PETL 策略,通过轻量级的可学习并行网络进行传输过程,减少内存消耗,并在不同架构上在低内存场景下实现更高的性能。
Aug, 2023
本文介绍了一种系统框架 Galvatron-BMW,集成了多种普遍的并行性维度,并自动识别最高效的混合并行性策略,该系统在不同的 Transformer 模型下展示了 Galvatron-BMW 自动分布式训练的能力。
Jul, 2023
我们提出了一种基于关键路径的线性聚类方法,利用机器学习数据流图中的并行路径来优化图的结构,从而加速串行执行速度,并在编译和运行时优于一些当前机制。
Aug, 2023
本文提出了一个名为 SOAP 的深度神经网络并行化搜索空间,并使用指导性随机搜索来发现特定并行计算机的快速并行化策略,并提出了一种新型执行模拟器,可精确预测并行化策略的性能,可将训练吞吐量提高多达 3.8 倍,并提高了可扩展性。
Jul, 2018
本文提出了一种层级并行的方法来训练深度卷积神经网络,在这种方法中,每层神经网络都可以应用不同的并行策略以优化训练,通过解决图搜索问题来协同优化每个层的并行化方式。 实验结果表明,与现有的并行化方法相比,采用该方法可以提高训练吞吐量,降低通信成本,实现更好的多 GPU 可扩展性,并保持原始网络的准确性。
Feb, 2018
我们提出了一种新方法 UPSA,它利用模拟退火实现无监督的同义词生成。我们将同义词生成建模为一个优化问题,并提出了一个复杂的目标函数,涉及同义词的语义相似性、表达多样性和语言流畅性。然后,UPSA 通过执行一系列局部编辑来朝着这个目标搜索句子空间。我们的方法是无监督的,不需要平行语料库进行训练,因此可以轻松应用于不同的领域。我们在各种基准数据集上评估了我们的方法,即 Quora、Wikianswers、MSCOCO 和 Twitter 等。广泛的结果表明,UPSA 在自动和人工评估方面都实现了与以前的无监督方法相比的最先进性能。此外,我们的方法优于大多数现有的领域自适应监督模型,显示了 UPSA 的通用性。
Sep, 2019