变形金刚技巧：预计算第一层

Feb, 2024

Transformer tricks: Precomputing the first layer

Nils Graef

TL;DR使用 RoPE 技巧能够提高 transformers 的推理速度，通过预计算第一层 transformer 能够降低延迟和每个词的成本。只优化了一层，实际节省的比例取决于总层数，例如对于只有 4 层的模型最大节省 25%，而对于 32 层模型最大节省 3%。

Abstract

This short paper describes a trick to speed up inference of transformers with rope (such as LLaMA, Mistral, and PaLM). For these models, a

transformers rope inference latency cost-per-token

发现论文，激发创造

预训练语言模型压缩和加速综述

该文章调查了预训练语言模型的压缩和加速方法，重点关注了模型在 NLP 领域推理阶段的表现，并提出为 NLP 的整个生命周期（包括数据准备、模型训练和推理）综合考虑计算、时间和碳排放的高效 NLP 研究。

Feb, 2022

利用渐进式层丢弃加速基于 Transformer 的语言模型训练

本文提出了基于渐进式层丢弃的方法，通过模型结构和训练技术的提升效率，加速了基于 Transformer 的语言模型的训练，相较于基准实验可以在每个样本上平均节省 24% 的时间，让预训练速度提高 2.5 倍，同时保持强的知识可迁移性。

Oct, 2020

AdapLeR: 自适应长度缩减加速推理

本文提出了一种基于 salience 方法的计算成本降低技术，具体来说，是通过动态消除 BERT 模型中的无用 tokens 以降低计算成本，在几个不同的分类任务中验证其性能，实现了高达 22 倍的加速。

Mar, 2022

高效 BERT 预训练的 Token Dropping

提出了一种基于 token dropping 方法的简单有效的预训练加速技术，可以在不影响下游任务性能的前提下，将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token，使模型更专注于重要的 token，然后让最后一层重新生成完整的序列，这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现，计算代价几乎为零。

Mar, 2022

高效稀疏激活变压器

本文研究了在基于 Transformer 的神经网络中引入混合专家 (MoE) 层以优化推理延迟，并提出了一个名为 PLANER 的系统，能够在保持基准准确性的同时实现推理延迟的优化，实验结果表明，这种方法能够在两个真实的语言建模任务中实现超过 2 倍的推理延迟降低。

Aug, 2022

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020

TR-BERT：动态令牌减少以加速 BERT 推理

本文提出一种动态适应层级的 Token 缩减方法 TR-BERT，该方法采用强化学习方法学习 Token 减少的选择策略以加速 BERT 模型在各种自然语言处理任务中的推理，并在实验中展示了 TR-BERT 在加速 BERT 模型的同时提高了其性能。

May, 2021

无训练无收益：重拾用于基于 Transformer 的语言模型的高效训练算法

本文探讨了三种算法类型 (动态架构、批量选择和优化器) 在训练 Transformer-based 语言模型的效率问题，并发现这些算法并不能比传统训练方法更快的提升训练、验证和下游任务的表现。

Jul, 2023

跳到结论：利用线性转换简化 Transformer

通过使用线性转换法，我们展示了在语言模型中激活层早期的内部决策过程，这种方法不仅可以产生更加精确的近似结果，还具有节省计算资源的优点。

Mar, 2023

层层为重要且不同：每一层都重要 BERT

该研究介绍了针对数据高效预训练语言模型的一种新型 Transformer 体系结构修改方法。该方法通过参与 BabyLM 挑战赛，赢得了 extsc {strict} 和 extsc {strict-small} 两个赛道。我们的方法允许每个 Transformer 层选择处理前一层的哪些输出。经验证实验结果显示，该简单的修改具有潜力，且不同层的重要性不尽相同。

Nov, 2023