通过早期退出加速用于序列标注的 BERT 推理
为了更好地优化给定的推理预算,我们提出了一种改进的上下文表示微调方法,它允许神经网络在简单实例中早期 (快速) 地进行神经网络计算,并允许在困难实例中晚期 (准确) 地退出,以交换精度和推理速度,而不需要昂贵的计算资源。
Apr, 2020
提出了一种名为 CeeBERT 的在线学习算法,该算法通过根据每个退出点处的置信水平动态确定样本的早期退出,从而消除了标记数据的需求,并且在最少降低性能的情况下改善了延迟。
May, 2024
本文提出一种名为 SmartBERT 的动态早期退出的 BERT 推理技术,结合跨层对比学习和层跳过机制,能够自适应跳过某些层和自适应选择是否退出,通过在训练阶段提出硬权重机制,可实现一致的跳过门的使用,通过 8 个分类数据集的实验结果表明,SmartBERT 达到 2-3 倍的计算减少,并与 BERT 相比仅有较小的精度损失,并且在效率和精度方面优于先前的方法。
Mar, 2023
本研究分析了动态提前退出的工作机制,并发现其在高速比下面临性能瓶颈。为了解决这个问题,提出了一个新的框架 CascadeBERT,可以在重要性和正确性方面提供综合的表示。 经过实验证明,与现有的动态提前退出方法相比,CascadeBERT 在六个分类任务上的性能提升达到了 15%,可实现 4 倍加速。
Dec, 2020
本文提出了一种基于 Patience 的 Early Exit 推理方法,该方法可以作为即插即用的技术应用于预训练语言模型,并同时提高其效率和鲁棒性,方法是在每个预训练语言模型层上配备一个内部分类器,动态地停止推理过程使得中间分类器的预测结果不再改变,从而减少模型的复杂度,产生更好的精度 - 速度平衡。在实验结果中,使用该方法对 ALBERT 模型进行优化,结果表明该方法能够预防模型过度思考和在预测阶段利用多个分类器,达到更好的精度 - 速度平衡。
Jun, 2020
DeeBERT 是一种简单而有效的方法,可以加速 BERT 的推理并降低推理时间。实验结果显示 DeeBERT 能够在保持模型质量的情况下,最多节省约 40%的推理时间,这为高效地应用基于 transformer-based 的深度模型提供了新思路。
Apr, 2020
通过提出一种名为 MuE 的新颖的早期退出策略,可以在编解码器中动态地跳过图像和文本多模态的不同层,从而提高推理效率,该方法可将预期推理时间缩短 50%和 40%,同时保持高达 99%和 96%的性能。
Nov, 2022
通过应用层丢弃和早期退出损失的训练技术,在推理过程中加快大型语言模型的速度,并推出了一种新颖的自我推测编码解决方案,该解决方案减少了内存占用,并在不同训练任务上实现了高达 2.16 倍的加速。
Apr, 2024
基于全局信息与局部信息的混合策略,我们提出了一个新颖的基于距离增强的 BERT 模型早停策略 (DE^3-BERT),通过利用全局信息来提高预测准确性,从而在模型性能和推理效率之间取得更好的平衡。
Feb, 2024
本文提出了一种基于 salience 方法的计算成本降低技术,具体来说,是通过动态消除 BERT 模型中的无用 tokens 以降低计算成本,在几个不同的分类任务中验证其性能,实现了高达 22 倍的加速。
Mar, 2022