选择适合的工具：匹配模型和实例的复杂度

ACLApr, 2020

选择适合的工具：匹配模型和实例的复杂度

The Right Tool for the Job: Matching Model and Instance Complexities

Roy Schwartz, Gabriel Stanovsky, Swabha Swayamdipta, Jesse Dodge, Noah A. Smith

TL;DR为了更好地优化给定的推理预算，我们提出了一种改进的上下文表示微调方法，它允许神经网络在简单实例中早期 (快速) 地进行神经网络计算，并允许在困难实例中晚期 (准确) 地退出，以交换精度和推理速度，而不需要昂贵的计算资源。

Abstract

As nlp models become larger, executing a trained model requires significant computational resources incurring monetary and environmental costs. To better respect a given inference budget, we propose a modificatio

nlp models computational resources fine-tuning early exit bert

发现论文，激发创造

通过早期退出加速用于序列标注的 BERT 推理

本文介绍了一个用于序列标记任务的提前退出机制，可以加速预训练模型的推断速度，同时通过基于窗口的判别标准以及自我采样微调等手段进一步降低了计算成本，并在三个常见序列标注任务上取得了较好的结果。

May, 2021

CascadeBERT：通过校准完整模型级联加速预训练语言模型推断

本研究分析了动态提前退出的工作机制，并发现其在高速比下面临性能瓶颈。为了解决这个问题，提出了一个新的框架 CascadeBERT，可以在重要性和正确性方面提供综合的表示。经过实验证明，与现有的动态提前退出方法相比，CascadeBERT 在六个分类任务上的性能提升达到了 15％，可实现 4 倍加速。

Dec, 2020

BERT 失去耐心：早期退出的快速和稳健推断

本文提出了一种基于 Patience 的 Early Exit 推理方法，该方法可以作为即插即用的技术应用于预训练语言模型，并同时提高其效率和鲁棒性，方法是在每个预训练语言模型层上配备一个内部分类器，动态地停止推理过程使得中间分类器的预测结果不再改变，从而减少模型的复杂度，产生更好的精度 - 速度平衡。在实验结果中，使用该方法对 ALBERT 模型进行优化，结果表明该方法能够预防模型过度思考和在预测阶段利用多个分类器，达到更好的精度 - 速度平衡。

Jun, 2020

DeeBERT：加速 BERT 推理的动态早退出

DeeBERT 是一种简单而有效的方法，可以加速 BERT 的推理并降低推理时间。实验结果显示 DeeBERT 能够在保持模型质量的情况下，最多节省约 40％的推理时间，这为高效地应用基于 transformer-based 的深度模型提供了新思路。

Apr, 2020

CEEBERT：早期退出 BERT 的跨领域推断

提出了一种名为 CeeBERT 的在线学习算法，该算法通过根据每个退出点处的置信水平动态确定样本的早期退出，从而消除了标记数据的需求，并且在最少降低性能的情况下改善了延迟。

May, 2024

SmartBERT: 提升动态早退出机制以加速 BERT 推断

本文提出一种名为 SmartBERT 的动态早期退出的 BERT 推理技术，结合跨层对比学习和层跳过机制，能够自适应跳过某些层和自适应选择是否退出，通过在训练阶段提出硬权重机制，可实现一致的跳过门的使用，通过 8 个分类数据集的实验结果表明，SmartBERT 达到 2-3 倍的计算减少，并与 BERT 相比仅有较小的精度损失，并且在效率和精度方面优于先前的方法。

Mar, 2023

AdapLeR: 自适应长度缩减加速推理

本文提出了一种基于 salience 方法的计算成本降低技术，具体来说，是通过动态消除 BERT 模型中的无用 tokens 以降低计算成本，在几个不同的分类任务中验证其性能，实现了高达 22 倍的加速。

Mar, 2022

寻找甜点：低资源环境下自适应推理的分析与改进

本论文比较了有限训练数据情况下，自适应推断的两种主要方法：Early-Exit 和 Multi-Model，提出了一种名为 SWEET 的 Early-Exit 微调方法，在保持速度相当的情况下，优于 Early-Exit 和 Multi-Model，最终表明 SWEET 同时具备两种方法的优点，并为 NLP 中进一步降低推断成本打下了基础。

Jun, 2023

通过主动学习对 BERT 进行微调，以提高低资源自然语言理解能力

本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法，通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明，通过最大化从未标记数据池中查询的模型的近似知识收益，可提高模型性能。最后，我们演示并分析了语言模型冻结层的好处，以减少可训练参数的数量，使其更适用于低资源环境。

Dec, 2020

TrimBERT: 为折衷而量身定制的 BERT 模型

本文介绍了一种方法：通过减少 BERT-Base 模型中的中间层数量来达到压缩模型、加快训练速度且不影响下游任务的准确性的效果，同时使用计算上更简单的技术代替自注意力层中的 softmax 操作并删除一半的层归一化层以进一步减少训练时间。

Feb, 2022