RAEE:一种无需训练的检索增强早期退出框架,实现高效推理
ConsistentEE 是一种早期退出方法,使用强化学习将退出过程形式化,通过添加策略网络来决定实例是否退出或继续,并利用一个记忆层来衡量实例的难度,从而提高加速和准确性。在自然语言理解和生成任务中,实验证明我们的方法优于其他基线模型。
Dec, 2023
为了解决自回归语言模型的高推理延迟,本研究提出了一个快速而健壮的提前退出 (FREE) 框架,其中包括一个浅层 - 深层模块和一个同步并行解码。通过与先前堆叠的提前退出的令牌进行解码过程的同步,我们的框架实现了更快的推理。此外,由于并行解码可以观察浅层和深层模型的预测结果,我们提出了一个新颖的自适应阈值估计器,利用 Beta 混合模型来确定合适的置信阈值。通过广泛的生成任务的实证,我们证明了我们提出的框架的优越性。
Oct, 2023
本研究提出了一种名为 EERO 的新方法,将早期退出的问题转化为使用具有拒绝选项的多个分类器的问题,以更好地选择每个实例的退出头。实验证明,该方法不仅有效管理预算分配,而且在超思考场景中提高了准确性。
Feb, 2024
本文提出了一种早期预测机制 'Exit Predictor',通过引导某些明显 “困难” 的数据样本绕过早期出口的计算,从而降低设备边缘混合推理系统中早期退出网络的设备计算负担。同时,还考虑了通信带宽的变化,在延迟感知的边缘推理中通过几个简单的回归模型来调整 Exit Predictor 的预测阈值和早期退出网络的置信度阈值,以适应不同带宽条件下推理的需求。实验结果表明,Exit Predictor 对于早期退出网络在准确性和设备计算负担之间取得更好的折衷效果。与基线方法相比,在不同带宽条件下,提出的延迟感知的边缘推理方法具有更高的推理准确性。
Jun, 2022
本文提出了一种基于哈希技术的早期结束方法,即 HashEE 方法,以替代 learn-to-exit 模块来预测每个实例的困难度,并将每个令牌分配到一个固定的退出层。实验证明,与先前的早期退出方法相比,该方法在分类、回归和生成任务中能够实现更高的性能,且需要更少的 FLOPs 和推理时间,并且不需要内部分类器或额外参数。
Mar, 2022
本研究提出了一种多模态早期退出模型设计,旨在在可视化丰富的文档理解(VDU)任务的可扩展生产环境中实现预测性能和效率之间的 Pareto 最优平衡。通过一系列实验证明,我们的方法与传统的退出策略相比,在改善了性能效率权衡方面取得了显著的改进。该研究对于提高 VDU 应用的性能和效率具有实际意义。
May, 2024
本研究提出了一种基于多目标学习的多出口深度神经网络推理框架 EENet,以优化在给定推理预算下的早期退出策略。 EENet 早期退出调度程序优化测试样本分配到不同退出,同时选择退出效用阈值,以满足给定的推理预算,同时最大化性能指标。与现有代表性早期退出技术相比,EENet 可以显着提高性能。
Jan, 2023
通过提出一种名为 MuE 的新颖的早期退出策略,可以在编解码器中动态地跳过图像和文本多模态的不同层,从而提高推理效率,该方法可将预期推理时间缩短 50%和 40%,同时保持高达 99%和 96%的性能。
Nov, 2022
本文提出了一种名为 FreeREA 的算法,利用基于细胞的演化神经网络结构搜索,结合训练 - 免度量化的方式,实现了在几分钟内快速鉴别神经网络模型,同时保留模型大小和计算要求,因此能够适用于在有限资源下使用的应用。实验结果表明,FreeREA 可以在各种数据集和基准测试中优于现有的基于训练 / 免训练技术的技术,并能在约束的情况下扩展到通用神经结构搜索,从而为快速的神经结构搜索提供了一种有竞争力的解决方案。
Jun, 2022