RAEE：一种无需训练的检索增强早期退出框架，实现高效推理

May, 2024

RAEE：一种无需训练的检索增强早期退出框架，实现高效推理

RAEE: A Training-Free Retrieval-Augmented Early Exiting Framework for Efficient Inference

Lianming Huang, Shangyu Wu, Yufei Cui, Ying Xiong, Xue Liu...

TL;DR通过构建检索数据库，框架 RAEE 以预测的近似分布为指导，利用类似数据的退出信息加速语言模型推理，取得了显著的效果，并在 8 个分类任务上达到了最先进的零 - shot 性能。

Abstract

Deploying large language model inference remains challenging due to their high computational overhead. early exiting accelerates model

large language model inference early exiting retrieval-augmented efficiency

发现论文，激发创造

ConsistentEE：一种一致和硬度引导的加速语言模型推理的早期退出方法

ConsistentEE 是一种早期退出方法，使用强化学习将退出过程形式化，通过添加策略网络来决定实例是否退出或继续，并利用一个记忆层来衡量实例的难度，从而提高加速和准确性。在自然语言理解和生成任务中，实验证明我们的方法优于其他基线模型。

Dec, 2023

具备快速且稳健的同时并行解码的自回归语言模型提前退出框架

为了解决自回归语言模型的高推理延迟，本研究提出了一个快速而健壮的提前退出 (FREE) 框架，其中包括一个浅层 - 深层模块和一个同步并行解码。通过与先前堆叠的提前退出的令牌进行解码过程的同步，我们的框架实现了更快的推理。此外，由于并行解码可以观察浅层和深层模型的预测结果，我们提出了一个新颖的自适应阈值估计器，利用 Beta 混合模型来确定合适的置信阈值。通过广泛的生成任务的实证，我们证明了我们提出的框架的优越性。

Oct, 2023

EERO: 早期退出与拒绝选项的有限预算高效分类

本研究提出了一种名为 EERO 的新方法，将早期退出的问题转化为使用具有拒绝选项的多个分类器的问题，以更好地选择每个实例的退出头。实验证明，该方法不仅有效管理预算分配，而且在超思考场景中提高了准确性。

Feb, 2024

语言模型中的多跳问题回答的检索增强知识编辑

用于多跳问题回答的检索增强模型编辑框架（RAE）利用相互信息最大化的检索方法和修剪策略来提供精确的答案和更新的知识。

Mar, 2024

早期退出预测的资源受限边缘人工智能

本文提出了一种早期预测机制 'Exit Predictor'，通过引导某些明显 “困难” 的数据样本绕过早期出口的计算，从而降低设备边缘混合推理系统中早期退出网络的设备计算负担。同时，还考虑了通信带宽的变化，在延迟感知的边缘推理中通过几个简单的回归模型来调整 Exit Predictor 的预测阈值和早期退出网络的置信度阈值，以适应不同带宽条件下推理的需求。实验结果表明，Exit Predictor 对于早期退出网络在准确性和设备计算负担之间取得更好的折衷效果。与基线方法相比，在不同带宽条件下，提出的延迟感知的边缘推理方法具有更高的推理准确性。

Jun, 2022

一种基于简单哈希的语言理解和生成早期退出方法

本文提出了一种基于哈希技术的早期结束方法，即 HashEE 方法，以替代 learn-to-exit 模块来预测每个实例的困难度，并将每个令牌分配到一个固定的退出层。实验证明，与先前的早期退出方法相比，该方法在分类、回归和生成任务中能够实现更高的性能，且需要更少的 FLOPs 和推理时间，并且不需要内部分类器或额外参数。

Mar, 2022

多模态自适应推理与任意时刻提前退出的文档图像分类

本研究提出了一种多模态早期退出模型设计，旨在在可视化丰富的文档理解（VDU）任务的可扩展生产环境中实现预测性能和效率之间的 Pareto 最优平衡。通过一系列实验证明，我们的方法与传统的退出策略相比，在改善了性能效率权衡方面取得了显著的改进。该研究对于提高 VDU 应用的性能和效率具有实际意义。

May, 2024

EENet: 适应推理的学习早期退出

本研究提出了一种基于多目标学习的多出口深度神经网络推理框架 EENet，以优化在给定推理预算下的早期退出策略。 EENet 早期退出调度程序优化测试样本分配到不同退出，同时选择退出效用阈值，以满足给定的推理预算，同时最大化性能指标。与现有代表性早期退出技术相比，EENet 可以显着提高性能。

Jan, 2023

需要多个退出点：加速统一视觉语言模型的动态提前退出

通过提出一种名为 MuE 的新颖的早期退出策略，可以在编解码器中动态地跳过图像和文本多模态的不同层，从而提高推理效率，该方法可将预期推理时间缩短 50％和 40％，同时保持高达 99％和 96％的性能。

Nov, 2022

FreeREA: 基于进化的架构搜索不需要预训练

本文提出了一种名为 FreeREA 的算法，利用基于细胞的演化神经网络结构搜索，结合训练 - 免度量化的方式，实现了在几分钟内快速鉴别神经网络模型，同时保留模型大小和计算要求，因此能够适用于在有限资源下使用的应用。实验结果表明，FreeREA 可以在各种数据集和基准测试中优于现有的基于训练 / 免训练技术的技术，并能在约束的情况下扩展到通用神经结构搜索，从而为快速的神经结构搜索提供了一种有竞争力的解决方案。

Jun, 2022