BERT 失去耐心：早期退出的快速和稳健推断

Jun, 2020

BERT 失去耐心：早期退出的快速和稳健推断

BERT Loses Patience: Fast and Robust Inference with Early Exit

Wangchunshu Zhou, Canwen Xu, Tao Ge, Julian McAuley, Ke Xu...

TL;DR本文提出了一种基于 Patience 的 Early Exit 推理方法，该方法可以作为即插即用的技术应用于预训练语言模型，并同时提高其效率和鲁棒性，方法是在每个预训练语言模型层上配备一个内部分类器，动态地停止推理过程使得中间分类器的预测结果不再改变，从而减少模型的复杂度，产生更好的精度 - 速度平衡。在实验结果中，使用该方法对 ALBERT 模型进行优化，结果表明该方法能够预防模型过度思考和在预测阶段利用多个分类器，达到更好的精度 - 速度平衡。

Abstract

In this paper, we propose patience-based early exit, a straightforward yet effective inference method that can be used as a plug-and-play technique to simultaneously improve the efficiency and robustness of a pre

patience-based early exit inference method pretrained language model internal-classifier accuracy-speed trade-off

发现论文，激发创造

CEEBERT：早期退出 BERT 的跨领域推断

提出了一种名为 CeeBERT 的在线学习算法，该算法通过根据每个退出点处的置信水平动态确定样本的早期退出，从而消除了标记数据的需求，并且在最少降低性能的情况下改善了延迟。

May, 2024

F-PABEE: 用于单标签和多标签文本分类任务的灵活耐心型早期退出

F-PABEE 方法通过在分类器进行预测，如果跨层预测分布连续相似，则提前退出，相对于之前最先进的 PABEE 早期退出方法更灵活，同时可以调整相似度分数阈值和耐心参数，通过实验证明，在单标签分类和多标签分类任务中，在 BERT 和 ALBERT 等不同 PLMs 上实现更快速的推理和更好的性能。

May, 2023

CascadeBERT：通过校准完整模型级联加速预训练语言模型推断

本研究分析了动态提前退出的工作机制，并发现其在高速比下面临性能瓶颈。为了解决这个问题，提出了一个新的框架 CascadeBERT，可以在重要性和正确性方面提供综合的表示。经过实验证明，与现有的动态提前退出方法相比，CascadeBERT 在六个分类任务上的性能提升达到了 15％，可实现 4 倍加速。

Dec, 2020

通过早期退出加速用于序列标注的 BERT 推理

本文介绍了一个用于序列标记任务的提前退出机制，可以加速预训练模型的推断速度，同时通过基于窗口的判别标准以及自我采样微调等手段进一步降低了计算成本，并在三个常见序列标注任务上取得了较好的结果。

May, 2021

PALBERT: 教授 ALBERT 思考

本文提出了一种改进的 PonderNet 模型，采用新的 deterministic Q-exit 准则和修订后的模型体系结构，并将其应用于 ALBERT 和 RoBERTa，结果优于 PABEE，在深入的消融研究中进一步理解了 Lambda 层及其性能。

Apr, 2022

SmartBERT: 提升动态早退出机制以加速 BERT 推断

本文提出一种名为 SmartBERT 的动态早期退出的 BERT 推理技术，结合跨层对比学习和层跳过机制，能够自适应跳过某些层和自适应选择是否退出，通过在训练阶段提出硬权重机制，可实现一致的跳过门的使用，通过 8 个分类数据集的实验结果表明，SmartBERT 达到 2-3 倍的计算减少，并与 BERT 相比仅有较小的精度损失，并且在效率和精度方面优于先前的方法。

Mar, 2023

层级跳过：在推断中实现早期退出和自我推测解码

通过应用层丢弃和早期退出损失的训练技术，在推理过程中加快大型语言模型的速度，并推出了一种新颖的自我推测编码解决方案，该解决方案减少了内存占用，并在不同训练任务上实现了高达 2.16 倍的加速。

Apr, 2024

选择适合的工具：匹配模型和实例的复杂度

为了更好地优化给定的推理预算，我们提出了一种改进的上下文表示微调方法，它允许神经网络在简单实例中早期 (快速) 地进行神经网络计算，并允许在困难实例中晚期 (准确) 地退出，以交换精度和推理速度，而不需要昂贵的计算资源。

Apr, 2020

DeeBERT：加速 BERT 推理的动态早退出

DeeBERT 是一种简单而有效的方法，可以加速 BERT 的推理并降低推理时间。实验结果显示 DeeBERT 能够在保持模型质量的情况下，最多节省约 40％的推理时间，这为高效地应用基于 transformer-based 的深度模型提供了新思路。

Apr, 2020

早期退出预测的资源受限边缘人工智能

本文提出了一种早期预测机制 'Exit Predictor'，通过引导某些明显 “困难” 的数据样本绕过早期出口的计算，从而降低设备边缘混合推理系统中早期退出网络的设备计算负担。同时，还考虑了通信带宽的变化，在延迟感知的边缘推理中通过几个简单的回归模型来调整 Exit Predictor 的预测阈值和早期退出网络的置信度阈值，以适应不同带宽条件下推理的需求。实验结果表明，Exit Predictor 对于早期退出网络在准确性和设备计算负担之间取得更好的折衷效果。与基线方法相比，在不同带宽条件下，提出的延迟感知的边缘推理方法具有更高的推理准确性。

Jun, 2022