TRANSOM: 一个高效的容错系统用于训练 LLMs
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021
本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法,并且通过在 WikiText103,LAMBADA 和 RACE 数据集中取得了最先进的结果,证明了大型语言模型可以进一步推进最先进的技术。
Sep, 2019
我们介绍了 MegaScale 的设计、实现和工程经验,它是一个用于在超过 10,000 个 GPU 的规模上训练大型语言模型的生产系统。我们采用了一种全栈方法,通过共同设计算法和系统组件来解决训练效率和稳定性方面的挑战,并分享了我们在确保系统稳定性方面的操作经验。
Feb, 2024
本论文展示了使用 AWS Trainium 和 Neuron Distributed Training Library 成功预训练了 HLAT 等具有高性能和高效性的最新大型语言模型。
Apr, 2024
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA,该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023
ProTrain 通过协调内存、计算和 IO,采用分块模型状态管理和块状激活管理,在不改变训练算法的情况下,通过内存感知的运行时分析器智能平衡内存使用和性能,相较于其他最佳训练系统,ProTrain 提高了 1.43 倍至 2.71 倍的训练吞吐量。
Jun, 2024
为了在移动设备上高效部署大型语言模型,我们提出了四种优化技术:基于符号表达式的动态模型推断,操作符优化和执行优先级设置,FP4 量化方法以减少反量化开销,以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求,并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比,我们的引擎在填充速度上实现了超过 10 倍的加速,并在解码速度上实现了 2~3 倍的加速。
Mar, 2024
本文提出了一种名为 GLaM(通用语言模型)的语言模型,采用稀疏的专家混合体系结构,可以提高模型容量同时降低训练成本。该模型可规模化至 1.2 万亿参数,性能优于 GPT-3,且训练花费和计算资源开销较小。
Dec, 2021
Holmes 是一个专门为 LLMs 设计的训练框架,通过巧妙构建数据和模型并行策略,在异构 NIC 环境下实现了可扩展性,并在大多数情况下达到接近 RDMA 网络性能的学习效率,同时与其他主流 LLM 框架无缝集成。
Dec, 2023