RTP: 重新思考张量并行性与内存去重
本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估,与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比,TPU 在保证相应时间的情况下比GPU或CPU平均快15倍-30倍,TOPS/Watt比GPU提高近70倍,比CPU提高200倍。
Apr, 2017
本文介绍了 Mesh-TensorFlow,一种用于实现一般分布式张量计算的语言,以代替传统的数据并行策略,从而支持更大的模型训练和更高的效率。通过应用 Mesh-TensorFlow 实现了一个数据并行、模型并行的 Transformer 模型,最终在 WMT'14 英法翻译任务和亿级语言建模基准测试上实现了最优性能。
Nov, 2018
为了解决同步数据并行训练中的通信瓶颈,本研究评估了梯度压缩方法的有效性,并将它们的可扩展性与优化后的同步数据并行 SGD 实现进行了比较。分析发现,仅有 6 种情况下,梯度压缩方法提供了速度优势。本研究提出了一种性能模型,用于确定在各种系统设置中梯度压缩的益处,并提出了一些理想的梯度压缩方法的性质列表,以获得有意义的综合优势。
Feb, 2021
本研究提出Tensor3D算法来高效地训练具有数十亿参数的神经网络,能够最小化通信引起的空闲时间,通过智能神经网络参数分布、并行训练过程的超分解以及通信模型,优化通信,相较于Megatron-LM,Tensor3D将28B参数CNN在256个A100 GPU上的训练时间缩短了近60%。
May, 2023
本文介绍了一种名为 Independent Subnetwork Training(IST)的高效神经网络模型并行化技术,其与压缩通信的分布式方法有着基本差异,在解决分布式大规模神经网络模型训练中的通信与计算问题上具有良好的优化性能。
Jun, 2023
通过在分布式本地内存上使用稀疏和循环模型训练方法,我们观察到与GPU相比,使用MIMD处理器(Intelligence Processing Unit)的稀疏激活张量在训练负载上实现了5-10倍的吞吐量增益,且在训练收敛或最终模型性能上没有明显减慢。
Nov, 2023
我们提出了CDMPP:一种用于跨模型和跨设备预测的高效张量程序延迟预测框架,它通过紧凑的AST表示和基于预排序的位置编码方法来捕获张量程序的内部结构,通过领域适应启发式方法学习领域不变表示,并设计了基于KMeans的采样算法来支持不同领域的学习,实验证明CDMPP相较于现有方法具有更高的预测准确率,并且训练效率提高一个数量级。
Nov, 2023
通过 Cyclic Data Parallelism 和 Model Parallelism 技术,在训练大型深度学习模型的过程中,减少了内存的需求以及 GPU 的使用,提升了模型的执行效率。
Mar, 2024