CEEBERT:早期退出 BERT 的跨领域推断
本研究分析了动态提前退出的工作机制,并发现其在高速比下面临性能瓶颈。为了解决这个问题,提出了一个新的框架 CascadeBERT,可以在重要性和正确性方面提供综合的表示。 经过实验证明,与现有的动态提前退出方法相比,CascadeBERT 在六个分类任务上的性能提升达到了 15%,可实现 4 倍加速。
Dec, 2020
本文提出了一种基于 Patience 的 Early Exit 推理方法,该方法可以作为即插即用的技术应用于预训练语言模型,并同时提高其效率和鲁棒性,方法是在每个预训练语言模型层上配备一个内部分类器,动态地停止推理过程使得中间分类器的预测结果不再改变,从而减少模型的复杂度,产生更好的精度 - 速度平衡。在实验结果中,使用该方法对 ALBERT 模型进行优化,结果表明该方法能够预防模型过度思考和在预测阶段利用多个分类器,达到更好的精度 - 速度平衡。
Jun, 2020
DeeBERT 是一种简单而有效的方法,可以加速 BERT 的推理并降低推理时间。实验结果显示 DeeBERT 能够在保持模型质量的情况下,最多节省约 40%的推理时间,这为高效地应用基于 transformer-based 的深度模型提供了新思路。
Apr, 2020
本文介绍了一个用于序列标记任务的提前退出机制,可以加速预训练模型的推断速度,同时通过基于窗口的判别标准以及自我采样微调等手段进一步降低了计算成本,并在三个常见序列标注任务上取得了较好的结果。
May, 2021
本文提出一种名为 SmartBERT 的动态早期退出的 BERT 推理技术,结合跨层对比学习和层跳过机制,能够自适应跳过某些层和自适应选择是否退出,通过在训练阶段提出硬权重机制,可实现一致的跳过门的使用,通过 8 个分类数据集的实验结果表明,SmartBERT 达到 2-3 倍的计算减少,并与 BERT 相比仅有较小的精度损失,并且在效率和精度方面优于先前的方法。
Mar, 2023
基于全局信息与局部信息的混合策略,我们提出了一个新颖的基于距离增强的 BERT 模型早停策略 (DE^3-BERT),通过利用全局信息来提高预测准确性,从而在模型性能和推理效率之间取得更好的平衡。
Feb, 2024
通过应用层丢弃和早期退出损失的训练技术,在推理过程中加快大型语言模型的速度,并推出了一种新颖的自我推测编码解决方案,该解决方案减少了内存占用,并在不同训练任务上实现了高达 2.16 倍的加速。
Apr, 2024
为了更好地优化给定的推理预算,我们提出了一种改进的上下文表示微调方法,它允许神经网络在简单实例中早期 (快速) 地进行神经网络计算,并允许在困难实例中晚期 (准确) 地退出,以交换精度和推理速度,而不需要昂贵的计算资源。
Apr, 2020
研究使用自监督模型 HuBERT 和 wav2vec 2.0 在自动语音识别中取得了显著的性能改进,但这些模型通常需要高昂的计算成本来实现出色的性能,从而拖慢了推理速度。为了提高模型效率,我们提出了一种早期退出方案,即 HuBERT-EE,它允许模型动态地停止推理。
Apr, 2022
本文提出了一种早期预测机制 'Exit Predictor',通过引导某些明显 “困难” 的数据样本绕过早期出口的计算,从而降低设备边缘混合推理系统中早期退出网络的设备计算负担。同时,还考虑了通信带宽的变化,在延迟感知的边缘推理中通过几个简单的回归模型来调整 Exit Predictor 的预测阈值和早期退出网络的置信度阈值,以适应不同带宽条件下推理的需求。实验结果表明,Exit Predictor 对于早期退出网络在准确性和设备计算负担之间取得更好的折衷效果。与基线方法相比,在不同带宽条件下,提出的延迟感知的边缘推理方法具有更高的推理准确性。
Jun, 2022