通过早期退出加速用于序列标注的 BERT 推理

ACLMay, 2021

通过早期退出加速用于序列标注的 BERT 推理

Accelerating BERT Inference for Sequence Labeling via Early-Exit

Xiaonan Li, Yunfan Shao, Tianxiang Sun, Hang Yan, Xipeng Qiu...

TL;DR本文介绍了一个用于序列标记任务的提前退出机制，可以加速预训练模型的推断速度，同时通过基于窗口的判别标准以及自我采样微调等手段进一步降低了计算成本，并在三个常见序列标注任务上取得了较好的结果。

Abstract

Both performance and efficiency are crucial factors for sequence labeling tasks in many real-world scenarios. Although the pre-trained models

sequence labeling pre-trained models early-exit mechanism computational cost performance

发现论文，激发创造

选择适合的工具：匹配模型和实例的复杂度

为了更好地优化给定的推理预算，我们提出了一种改进的上下文表示微调方法，它允许神经网络在简单实例中早期 (快速) 地进行神经网络计算，并允许在困难实例中晚期 (准确) 地退出，以交换精度和推理速度，而不需要昂贵的计算资源。

Apr, 2020

CEEBERT：早期退出 BERT 的跨领域推断

提出了一种名为 CeeBERT 的在线学习算法，该算法通过根据每个退出点处的置信水平动态确定样本的早期退出，从而消除了标记数据的需求，并且在最少降低性能的情况下改善了延迟。

May, 2024

SmartBERT: 提升动态早退出机制以加速 BERT 推断

本文提出一种名为 SmartBERT 的动态早期退出的 BERT 推理技术，结合跨层对比学习和层跳过机制，能够自适应跳过某些层和自适应选择是否退出，通过在训练阶段提出硬权重机制，可实现一致的跳过门的使用，通过 8 个分类数据集的实验结果表明，SmartBERT 达到 2-3 倍的计算减少，并与 BERT 相比仅有较小的精度损失，并且在效率和精度方面优于先前的方法。

Mar, 2023

CascadeBERT：通过校准完整模型级联加速预训练语言模型推断

本研究分析了动态提前退出的工作机制，并发现其在高速比下面临性能瓶颈。为了解决这个问题，提出了一个新的框架 CascadeBERT，可以在重要性和正确性方面提供综合的表示。经过实验证明，与现有的动态提前退出方法相比，CascadeBERT 在六个分类任务上的性能提升达到了 15％，可实现 4 倍加速。

Dec, 2020

BERT 失去耐心：早期退出的快速和稳健推断

本文提出了一种基于 Patience 的 Early Exit 推理方法，该方法可以作为即插即用的技术应用于预训练语言模型，并同时提高其效率和鲁棒性，方法是在每个预训练语言模型层上配备一个内部分类器，动态地停止推理过程使得中间分类器的预测结果不再改变，从而减少模型的复杂度，产生更好的精度 - 速度平衡。在实验结果中，使用该方法对 ALBERT 模型进行优化，结果表明该方法能够预防模型过度思考和在预测阶段利用多个分类器，达到更好的精度 - 速度平衡。

Jun, 2020

DeeBERT：加速 BERT 推理的动态早退出

DeeBERT 是一种简单而有效的方法，可以加速 BERT 的推理并降低推理时间。实验结果显示 DeeBERT 能够在保持模型质量的情况下，最多节省约 40％的推理时间，这为高效地应用基于 transformer-based 的深度模型提供了新思路。

Apr, 2020

需要多个退出点：加速统一视觉语言模型的动态提前退出

通过提出一种名为 MuE 的新颖的早期退出策略，可以在编解码器中动态地跳过图像和文本多模态的不同层，从而提高推理效率，该方法可将预期推理时间缩短 50％和 40％，同时保持高达 99％和 96％的性能。

Nov, 2022

层级跳过：在推断中实现早期退出和自我推测解码

通过应用层丢弃和早期退出损失的训练技术，在推理过程中加快大型语言模型的速度，并推出了一种新颖的自我推测编码解决方案，该解决方案减少了内存占用，并在不同训练任务上实现了高达 2.16 倍的加速。

Apr, 2024

DE$^3$-BERT: 基于原型网络的 BERT 增强距离提前退出

基于全局信息与局部信息的混合策略，我们提出了一个新颖的基于距离增强的 BERT 模型早停策略 (DE^3-BERT)，通过利用全局信息来提高预测准确性，从而在模型性能和推理效率之间取得更好的平衡。

Feb, 2024

AdapLeR: 自适应长度缩减加速推理

本文提出了一种基于 salience 方法的计算成本降低技术，具体来说，是通过动态消除 BERT 模型中的无用 tokens 以降低计算成本，在几个不同的分类任务中验证其性能，实现了高达 22 倍的加速。

Mar, 2022