语言理解用的可调节延迟的 Transformer 编码器

Jan, 2022

语言理解用的可调节延迟的 Transformer 编码器

Latency Adjustable Transformer Encoder for Language Understanding

Sajjad Kachuee, Mohammad Sharifkhani

TL;DR本文提出了一种可以自适应地调整推论计算成本的高效 Transformer 架构，包括 Attention Context Contribution（ACC）度量和新的策略，可用于 BERTbase 模型的微调，并且使得推论延迟提高了 4.8 倍，并且精度下降少于 0.75％。

Abstract

Adjusting the latency, power, and accuracy of natural language understanding models is a desirable objective of efficient architecture development. This paper proposes an efficient transformer architecture that a

natural language understanding efficient transformer architecture fine-tuning inference latency bertbase

发现论文，激发创造

EdgeBERT：面向延迟感知的多任务 NLP 推理的句子级能耗优化

EdgeBERT 是一种算法硬件协同设计，提供基于熵的早期退出预测，以进行动态电压频率缩放 (DVFS)，从而实现最小能耗，同时遵循预定的目标延迟，以适应资源受限的边缘平台，在最小的计算和存储占用开销下，提供多任务自然语言处理 (NLP) 加速，相比于传统的推理方法，无限制的早期退出方法以及在 Nvidia Jetson Tegra X2 移动 GPU 上的 CUDA 适配，EdgeBERT 硬件系统在激活多任务 NLP 推理加速方面，能够生成高达 7x，2.5x 和 53x 的低能耗。

Nov, 2020

使用部分假设选择实现低延迟序列到序列的语音识别和翻译

本文针对编码器 - 解码器模型在语音翻译等序列任务中的精度和延迟问题，提出了三种延迟降低技术，包括使用单向注意力机制，实验证明该方法可以降低 83% 的延迟并牺牲 1% 的 WER（相对于离线转换）。同时还探讨了其在低延迟语音翻译上的应用。

May, 2020

Fast-FNet: 通过高效傅里叶层加速 Transformer Encoder 模型

本研究比较了基于 Transformer 的语言模型中的注意力机制和傅里叶变换，并提出了几种采用更高效的傅里叶变换的模型架构，以提高模型效率。

Sep, 2022

高效扩展 Transformer 推理

该研究旨在提高 Transformers 模型的生成推理效率，并通过多维分区技术、低级优化等策略获得较佳的推理效率和 FLOPS 利用率权衡，从而支持 Token 的大批量处理和长文本生成。

Nov, 2022

快速答案：在张量流处理器上加速 BERT

本研究中，我们通过将所有的非线性组件与矩阵乘法组件谨慎地融合起来，在张量流处理器上加速了 BERT 模型的推断，实现了一批量 - 1 推断的 130 微秒确定性尾延迟，比当前最先进的方法快 6 倍。

Jun, 2022

神经机器翻译的高效推断

该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法，可以在不降低翻译质量的情况下，在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速，并将参数数量减少 25%。

Oct, 2020

高效稀疏激活变压器

本文研究了在基于 Transformer 的神经网络中引入混合专家 (MoE) 层以优化推理延迟，并提出了一个名为 PLANER 的系统，能够在保持基准准确性的同时实现推理延迟的优化，实验结果表明，这种方法能够在两个真实的语言建模任务中实现超过 2 倍的推理延迟降低。

Aug, 2022

AdapLeR: 自适应长度缩减加速推理

本文提出了一种基于 salience 方法的计算成本降低技术，具体来说，是通过动态消除 BERT 模型中的无用 tokens 以降低计算成本，在几个不同的分类任务中验证其性能，实现了高达 22 倍的加速。

Mar, 2022

ED2LM: 用于更快文档重新排序推理的 Encoder-Decoder 到语言模型

提出使用预训练的 encoder-decoder 模型，通过 document to query generation 来进行重新排名，同时在推理时，将其分解为仅有 decoder 的语言模型以提高推理速度，实验结果表明该方法可以比传统的交叉注意模型快 6.8 倍，并且能取得相当的效果。

Apr, 2022

大小变压器解码器

提出了 Big Little Decoder (BiLD) 框架来提高文本生成的推理效率和延迟，通过两个不同大小的模型协同生成文本。在各种文本生成情景下应用 BiLD，如机器翻译、摘要生成和语言建模，在 NVIDIA Titan Xp GPU 上实现高达 2.38 倍的加速且不对性能造成显著的损失。

Feb, 2023