数据移动即所需:优化 Transformer 的案例研究
提出了一种新颖的内存数据排列策略,通过硬件加速器的内核大小来有效减小芯片外数据访问,特别对于基于广义矩阵乘法(GEMM)的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法,证明了该方法能够实现高达 2.8 倍的速度提升。
Dec, 2023
本文设计了名为 TurboTransformers 的 transformer 服务系统,包括计算运行时和服务框架,能够以很少的代码集成到 PyTorch 中,在 GPU 平台上实现最先进的 transformer 模型服务性能。
Oct, 2020
通过仔细考虑 GPU 上执行的基础计算核心的各种模型超参数对模型形状效率的影响,我们提供了一套指南,以最大化用户的 Transformer 模型的运行时性能。通过优化模型形状,与具有类似参数但形状未经优化的模型相比,高效模型形状的吞吐量提高了多达 39%,同时保持准确性。
Jan, 2024
本文介绍了使用 Tensor2Tensor 框架和 Transformer 序列到序列模型进行神经机器翻译的实验。研究比较了影响最终翻译质量、内存使用、训练稳定性和时间的一些关键参数,并给出了一些实用建议,包括扩展到多个 GPU 的方法、对批处理大小、学习率、预热步数、最大句子长度和检查点平均值的改进建议。希望本文的观察对其他研究人员有所帮助。
Apr, 2018
本研究中,我们通过将所有的非线性组件与矩阵乘法组件谨慎地融合起来,在张量流处理器上加速了 BERT 模型的推断,实现了一批量 - 1 推断的 130 微秒确定性尾延迟,比当前最先进的方法快 6 倍。
Jun, 2022
本文提出了多种简单的、不依赖硬件的方法,并将这些方法结合使用,以提高 Transformer 的效率,在 WMT 新闻翻译任务中,我们提高了强 Transformer 系统在 CPU 上的推理效率 3.80 倍,在 GPU 上的推理效率 2.52 倍。
Sep, 2021
本文调查了提高 Transformer 模型推理效率的不同方法,包括分析现有模型架构的瓶颈和硬件设计的影响,调度操作的挑战,以及通过神经网络架构搜索来优化 Transformer 模型等研究方向。最后,作者将这些方法应用于一个开源的全栈 DNN 加速器生成器中,并表明这些方法都可以对提高模型推理速度产生影响,其中最优的全栈设计方法可以将速度提高多达 88.7 倍,同时性能基本不受损害
Feb, 2023
研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。
Oct, 2023
研究表明,即使较小的 Transformer 模型在每次迭代中执行更快,较宽且较深的模型在明显更少的步骤中收敛。此外,大型模型比小型模型更 robust,因此,高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性
Feb, 2020
使用预训练 Transformers 并扩展它们与 Adapters,我们开发了一种方法来增量训练模型处理任务序列,成功地避免了灾难性遗忘并且在多个任务上表现良好。
Mar, 2022