RTP: 重新思考张量并行性与内存去重

Nov, 2023

RTP: 重新思考张量并行性与内存去重

RTP: Rethinking Tensor Parallelism with Memory Deduplication

Cheng Luo, Tianle Zhong, Geoffrey Fox

TL;DR该研究深入探讨了旋转张量并行性（RTP），这是一种创新的方法，针对训练大规模模型中的显著内存开销进行了战略性的内存去重，并优化了训练过程。实证评估结果表明，RTP在分布式系统训练过程中的内存消耗与最优解非常接近，并且能够实现与分布式数据并行相当的性能，同时支持显著更大的模型。

Abstract

In the evolving landscape of neural network models, one prominent challenge stand out: the significant memory overheads associated with training expansive models. Addressing this challenge, this study delves deep

发现论文，激发创造

张量处理单元的数据中心性能分析

本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估，与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比，TPU 在保证相应时间的情况下比GPU或CPU平均快15倍-30倍，TOPS/Watt比GPU提高近70倍，比CPU提高200倍。

Apr, 2017

Mesh-TensorFlow：用于超级计算机的深度学习

本文介绍了 Mesh-TensorFlow，一种用于实现一般分布式张量计算的语言，以代替传统的数据并行策略，从而支持更大的模型训练和更高的效率。通过应用 Mesh-TensorFlow 实现了一个数据并行、模型并行的 Transformer 模型，最终在 WMT'14 英法翻译任务和亿级语言建模基准测试上实现了最优性能。

Nov, 2018

分布式训练系统中梯度压缩的效用

为了解决同步数据并行训练中的通信瓶颈，本研究评估了梯度压缩方法的有效性，并将它们的可扩展性与优化后的同步数据并行 SGD 实现进行了比较。分析发现，仅有 6 种情况下，梯度压缩方法提供了速度优势。本研究提出了一种性能模型，用于确定在各种系统设置中梯度压缩的益处，并提出了一些理想的梯度压缩方法的性质列表，以获得有意义的综合优势。

Feb, 2021

异步张量并行通信最小化

本研究提出Tensor3D算法来高效地训练具有数十亿参数的神经网络，能够最小化通信引起的空闲时间，通过智能神经网络参数分布、并行训练过程的超分解以及通信模型，优化通信，相较于Megatron-LM，Tensor3D将28B参数CNN在256个A100 GPU上的训练时间缩短了近60%。

May, 2023

朝着对独立子网络训练的更好理论理解

本文介绍了一种名为 Independent Subnetwork Training（IST）的高效神经网络模型并行化技术，其与压缩通信的分布式方法有着基本差异，在解决分布式大规模神经网络模型训练中的通信与计算问题上具有良好的优化性能。

Jun, 2023

合作：记忆不是一种商品

深度学习框架中的张量再材料化方法Coop通过优化张量分配和再材料化，实现了多达2倍的内存节省，大大减少了计算开销、搜索延迟和内存碎片化。

Nov, 2023

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与GPU相比，使用MIMD处理器(Intelligence Processing Unit)的稀疏激活张量在训练负载上实现了5-10倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Nov, 2023

CDMPP：一种适用于张量程序的设备模型无关框架的延迟预测

我们提出了CDMPP：一种用于跨模型和跨设备预测的高效张量程序延迟预测框架，它通过紧凑的AST表示和基于预排序的位置编码方法来捕获张量程序的内部结构，通过领域适应启发式方法学习领域不变表示，并设计了基于KMeans的采样算法来支持不同领域的学习，实验证明CDMPP相较于现有方法具有更高的预测准确率，并且训练效率提高一个数量级。

Nov, 2023

TP感知的去量化

通过优化的推断部署方案，在分布式部署大型语言模型时减少了模型推断延迟。

Jan, 2024

深度神经网络的高效并行计算中的循环数据并行

通过 Cyclic Data Parallelism 和 Model Parallelism 技术，在训练大型深度学习模型的过程中，减少了内存的需求以及 GPU 的使用，提升了模型的执行效率。

Mar, 2024