FastFormers: 高效 Transformer 模型的自然语言理解

EMNLPOct, 2020

FastFormers: 高效 Transformer 模型的自然语言理解

FastFormers: Highly Efficient Transformer Models for Natural Language Understanding

Young Jin Kim, Hany Hassan Awadalla

TL;DR本研究提出了 FastFormers 来加快基于 Transformer 模型的 NLU 任务的推理效率，可以通过运用知识蒸馏、结构剪枝和数值优化等方法，将预处理模型在 CPU 和 GPU 上的速度提高至 9.8-233.9 倍，节省成本的同时降低能耗。

Abstract

transformer-based models are the state-of-the-art for Natural Language Understanding (NLU) applications. Models are getting bigger and better on various tasks. However, Transformer models remain computationally challenging since they are not efficient at inference-time compared to trad

transformer-based models inference-time efficiency knowledge distillation structured pruning numerical optimization

发现论文，激发创造

高效 Transformer：综述

本研究总结了多个领域的最新端到端基于 Transformer 模型的 X-former 模型，强调了计算和内存效率

Sep, 2020

Brainformers: 简单性与效率的平衡

本文介绍了一种名为 Brainformer 的复合深度神经网络模型，其中包括稀疏门控前馈层、紧密前馈层、自注意层以及不同形式的层规范化和激活函数。 Brainformer 模型表现优异且更为高效，比当前最先进的密集和稀疏的 Transformers 模型快 5 倍。在下游任务评估中，Brainformer 模型与 GLaM 模型相比，细调后 SuperGLUE 得分高出 3％。

May, 2023

神经机器翻译的高效推断

该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法，可以在不降低翻译质量的情况下，在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速，并将参数数量减少 25%。

Oct, 2020

Transformer 模型的快速后训练剪枝框架

本文提出一种基于结构化稀疏方法的快速 Transformer 模型剪枝框架，无需重新训练即可保持高准确度，在 GLUE 和 SQuAD 数据集中分别实现了 2 倍的 FLOPs 减少和 1.56 倍的推理速度提升，在单个 GPU 上不到 3 分钟即可完成模型修剪。

Mar, 2022

高效扩展 Transformer 推理

该研究旨在提高 Transformers 模型的生成推理效率，并通过多维分区技术、低级优化等策略获得较佳的推理效率和 FLOPS 利用率权衡，从而支持 Token 的大批量处理和长文本生成。

Nov, 2022

GateFormer：使用输入门控变形器加速新闻推荐

GateFormer 使用一种轻量级、端到端可学习的门控模块，在数据进入 transformer 之前对其进行过滤，从而提高了新闻推荐的效率和准确性，并且即使在对原始数据压缩 10 倍的情况下，仍能保持与 SOTA 方法相当的性能。

Jan, 2022

Paraformer：用于非自回归端到端语音识别的快速准确并行 Transformer

为了加速端到端语音识别中的推理，本文提出了一个名为 Paraformer 的快速且精确的并行 Transformer，其能够通过利用一种基于连续积分和火的预测器来预测令牌数量并生成隐藏变量，并使用瞥见语言模型（GLM）实现语义嵌入，最后设计了一种策略来生成负采样以进一步提高性能。在多项实验中，Paraformer 能够以超过 10 倍的加速在公共 AISHELL-1、AISHELL-2 基准和工业级 20,000 小时任务中实现与最先进的 AR Transformer 相当的性能。

Jun, 2022

TurboTransformers: Transformer 模型的高效 GPU 服务系统

本文设计了名为 TurboTransformers 的 transformer 服务系统，包括计算运行时和服务框架，能够以很少的代码集成到 PyTorch 中，在 GPU 平台上实现最先进的 transformer 模型服务性能。

Oct, 2020

Fastformer：加性注意力足矣

本文介绍了 Fastformer 模型，这是一种基于加法注意力的高效 Transformer 模型，与现有的 Transformer 模型相比，它可以更有效地建模长文本，并且具有线性复杂度。

Aug, 2021

Bioformer：面向生物医学文本挖掘的高效 Transformer 语言模型

本研究提出了 Bioformer，一种用于生物医学文本挖掘的紧凑型 BERT 模型，它在 PubMed 文摘和 PubMed Central 全文文章上进行了预训练，使用生物医学词汇表。Bioformer 相对于 BERTBase 减小了 60％的模型大小，且在四种不同的生物医学 NLP 任务中表现出优异的性能，比如问答，文档分类和命名实体识别等。此外，Bioformer 速度比 PubMedBERT 和 BioBERTBase-v1.1 快 2-3 倍。

Feb, 2023