数据移动即所需：优化 Transformer 的案例研究

Jun, 2020

数据移动即所需：优化 Transformer 的案例研究

Data Movement Is All You Need: A Case Study on Optimizing Transformers

Andrei Ivanov, Nikoli Dryden, Tal Ben-Nun, Shigang Li, Torsten Hoefler

TL;DR该研究提出了一种全局优化 transformers 数据传输的方法，通过减少数据传输的步骤，实现了对 BERT 编码器层的训练性能提升 1.30 倍以及整个 BERT 的训练性能提升 1.19 倍。此方法可更广泛地应用于优化深度神经网络，提供了解决性能瓶颈问题的见解。

Abstract

transformers are one of the most important machine learning workloads today. Training one is a very compute-intensive task, often taking days or weeks, and significant attention has been given to optimizing

transformers machine learning gpu optimization data movement performance improvement

发现论文，激发创造

加速器驱动的数据排列在多核架构上最小化变压器运行时间

提出了一种新颖的内存数据排列策略，通过硬件加速器的内核大小来有效减小芯片外数据访问，特别对于基于广义矩阵乘法（GEMM）的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法，证明了该方法能够实现高达 2.8 倍的速度提升。

Dec, 2023

TurboTransformers: Transformer 模型的高效 GPU 服务系统

本文设计了名为 TurboTransformers 的 transformer 服务系统，包括计算运行时和服务框架，能够以很少的代码集成到 PyTorch 中，在 GPU 平台上实现最先进的 transformer 模型服务性能。

Oct, 2020

与硬件协同设计模型架构的案例

通过仔细考虑 GPU 上执行的基础计算核心的各种模型超参数对模型形状效率的影响，我们提供了一套指南，以最大化用户的 Transformer 模型的运行时性能。通过优化模型形状，与具有类似参数但形状未经优化的模型相比，高效模型形状的吞吐量提高了多达 39％，同时保持准确性。

Jan, 2024

Transformer 模型的训练技巧

本文介绍了使用 Tensor2Tensor 框架和 Transformer 序列到序列模型进行神经机器翻译的实验。研究比较了影响最终翻译质量、内存使用、训练稳定性和时间的一些关键参数，并给出了一些实用建议，包括扩展到多个 GPU 的方法、对批处理大小、学习率、预热步数、最大句子长度和检查点平均值的改进建议。希望本文的观察对其他研究人员有所帮助。

Apr, 2018

快速答案：在张量流处理器上加速 BERT

本研究中，我们通过将所有的非线性组件与矩阵乘法组件谨慎地融合起来，在张量流处理器上加速了 BERT 模型的推断，实现了一批量 - 1 推断的 130 微秒确定性尾延迟，比当前最先进的方法快 6 倍。

Jun, 2022

优化 Transformer 效率的技巧

本文提出了多种简单的、不依赖硬件的方法，并将这些方法结合使用，以提高 Transformer 的效率，在 WMT 新闻翻译任务中，我们提高了强 Transformer 系统在 CPU 上的推理效率 3.80 倍，在 GPU 上的推理效率 2.52 倍。

Sep, 2021

Transformer 推理的全栈优化：一项调查

本文调查了提高 Transformer 模型推理效率的不同方法，包括分析现有模型架构的瓶颈和硬件设计的影响，调度操作的挑战，以及通过神经网络架构搜索来优化 Transformer 模型等研究方向。最后，作者将这些方法应用于一个开源的全栈 DNN 加速器生成器中，并表明这些方法都可以对提高模型推理速度产生影响，其中最优的全栈设计方法可以将速度提高多达 88.7 倍，同时性能基本不受损害

Feb, 2023

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

训练大模型，压缩小模型：重新思考 Transformers 的高效训练与推断模型大小

研究表明，即使较小的 Transformer 模型在每次迭代中执行更快，较宽且较深的模型在明显更少的步骤中收敛。此外，大型模型比小型模型更 robust，因此，高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性

Feb, 2020

具有 Transformer 的内存高效的持续学习

使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Mar, 2022