快速答案：在张量流处理器上加速 BERT

Jun, 2022

快速答案：在张量流处理器上加速 BERT

Answer Fast: Accelerating BERT on the Tensor Streaming Processor

Ibrahim Ahmed, Sahil Parmar, Matthew Boyd, Michael Beidler, Kris Kang...

TL;DR本研究中，我们通过将所有的非线性组件与矩阵乘法组件谨慎地融合起来，在张量流处理器上加速了 BERT 模型的推断，实现了一批量 - 1 推断的 130 微秒确定性尾延迟，比当前最先进的方法快 6 倍。

Abstract

transformers have become a predominant machine learning workload, they are not only the de-facto standard for natural language processing tasks, but they are also being deployed in other domains such as vision an

transformers machine learning bert models real-time systems inference acceleration

发现论文，激发创造

语言理解用的可调节延迟的 Transformer 编码器

本文提出了一种可以自适应地调整推论计算成本的高效 Transformer 架构，包括 Attention Context Contribution（ACC）度量和新的策略，可用于 BERTbase 模型的微调，并且使得推论延迟提高了 4.8 倍，并且精度下降少于 0.75％。

Jan, 2022

开发用于大规模数据集实时流式转换器转导器的语音识别系统

本文介绍了一种基于 Transform-XL 的可流式 Transformer-Transducer 模型的应用，用于语音识别中的低延迟且快速编码，比混合模型、RNN-Transducer 和流式 Transformer - 基于注意力的编码器 - 解码器模型具有更好的性能。

Oct, 2020

IceFormer: 基于 CPU 的长序列 Transformer 加速推理

通过加速自注意机制在推断时的方法，我们成功加速了各种长序列转换器，并在各个基准测试中展示了 2.73 倍 - 7.63 倍的速度提升，同时保留了 98.6%-99.6% 的原始预训练模型的准确性。

May, 2024

高效扩展 Transformer 推理

该研究旨在提高 Transformers 模型的生成推理效率，并通过多维分区技术、低级优化等策略获得较佳的推理效率和 FLOPS 利用率权衡，从而支持 Token 的大批量处理和长文本生成。

Nov, 2022

CPU 上的快速 DistilBERT

本文介绍了一种新的在 CPU 上创建和运行快速 Transformer 模型的流水线，利用硬件感知剪枝、知识蒸馏和量化等模型压缩技术，通过优化稀疏和量化操作库的运行时引擎来提高推理效率，创造了一个 Fast DistilBERT 模型，其通过问题回答 SQuADv1.1 基准测试表现良好，性能比现有的 Neural Magic's DeepSparse 运行时性能提高了高达 50%，比 ONNX 计算时性能提升了最多 4.1 倍。

Oct, 2022

EdgeBERT：面向延迟感知的多任务 NLP 推理的句子级能耗优化

EdgeBERT 是一种算法硬件协同设计，提供基于熵的早期退出预测，以进行动态电压频率缩放 (DVFS)，从而实现最小能耗，同时遵循预定的目标延迟，以适应资源受限的边缘平台，在最小的计算和存储占用开销下，提供多任务自然语言处理 (NLP) 加速，相比于传统的推理方法，无限制的早期退出方法以及在 Nvidia Jetson Tegra X2 移动 GPU 上的 CUDA 适配，EdgeBERT 硬件系统在激活多任务 NLP 推理加速方面，能够生成高达 7x，2.5x 和 53x 的低能耗。

Nov, 2020

Transformer 推理的全栈优化：一项调查

本文调查了提高 Transformer 模型推理效率的不同方法，包括分析现有模型架构的瓶颈和硬件设计的影响，调度操作的挑战，以及通过神经网络架构搜索来优化 Transformer 模型等研究方向。最后，作者将这些方法应用于一个开源的全栈 DNN 加速器生成器中，并表明这些方法都可以对提高模型推理速度产生影响，其中最优的全栈设计方法可以将速度提高多达 88.7 倍，同时性能基本不受损害

Feb, 2023

DeepSpeed 推理：在前所未有的规模下实现 Transformer 模型的高效推理

本文介绍了 DeepSpeed Inference 这一全面的转换模型推断系统解决方案，以解决目前多样化的转换模型在推断时遇到的挑战，包括多 GPU 推断方案，利用 CPU 和 NVMe 内存进行异构推断以及在实时延迟限制下运行万亿级别的推断等，并且可以比 GPU-only 解决方案处理规模大 25 倍的模型，同时提供高吞吐量。

Jun, 2022

神经机器翻译的高效推断

该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法，可以在不降低翻译质量的情况下，在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速，并将参数数量减少 25%。

Oct, 2020

数据移动即所需：优化 Transformer 的案例研究

该研究提出了一种全局优化 transformers 数据传输的方法，通过减少数据传输的步骤，实现了对 BERT 编码器层的训练性能提升 1.30 倍以及整个 BERT 的训练性能提升 1.19 倍。此方法可更广泛地应用于优化深度神经网络，提供了解决性能瓶颈问题的见解。

Jun, 2020