EE-Tuning: 基于经济且可伸缩的解决方案的早停调参大型语言模型

Feb, 2024

EE-Tuning: 基于经济且可伸缩的解决方案的早停调参大型语言模型

EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models

Xuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou

TL;DREE-Tuning 是一种轻量且经济的解决方案，用于训练 / 调整早停的大型语言模型 (LLMs)。与全参数预训练的常见方法相比，EE-Tuning 通过以参数有效的方式增加早停层来扩充任何预训练（可能是微调）的标准 LLM，从而大大减少计算资源和训练数据的需求。通过广泛的性能优化和与 3D 并行性的完全兼容性，我们的 EE-Tuning 实现实现了出色的训练效率和可扩展性。系统实验证实了 EE-Tuning 的有效性，并证实只需有限的训练预算就可以实现有效的早停 LLM 推断。为了让早停 LLMs 可供广大科研人员使用，我们在此链接处发布了 EE-Tuning 的源代码。

Abstract

This work introduces ee-tuning, a lightweight and economical solution to training/tuning early-exit large language models (LLMs). In contrast to the common approach of full-parameter pre-training, →

ee-tuning early-exit large language models parameter-efficient training efficiency 3d parallelism

发现论文，激发创造

EE-LLM: 基于 3D 并行的大规模训练与推理的早退出大型语言模型

EE-LLM 是一个基于大规模训练和推理的早期退出大型语言模型的框架，通过支持训练和推理的大规模 3D 并行性，EE-LLM 在扩展早期退出 LLMs 方面迈出了关键的一步，通过实现多种算法创新和性能优化，实现了出色的训练效率和推理加速。

Dec, 2023

EDGE-LLM：通过层间统一压缩和自适应层调整与投票在边缘设备上实现高效的大型语言模型适应

边缘设备上实现的大型语言模型 (LLM) 的高效调整是连续和隐私保护适应和推理所需的关键，本研究介绍了一种计算和内存高效的 LLM 调整框架 Edge-LLM，通过生成逐层剪枝稀疏性和量化位宽策略来减少计算开销，通过减少反向传播深度的自适应层调整和投票方案来减少内存开销，通过处理 LUC 和自适应层调整引入的不规则计算模式的互补硬件调度策略来实现高效的计算和数据移动。实验证明，Edge-LLM 相比原始调整方法在任务准确性相当的情况下实现了 2.92 倍的加速和 4 倍的内存开销降低。

Jun, 2024

大型语言模型用于进化策略调优

利用大型语言模型（LLMs）的世界知识和推理能力，本研究提出了一种反馈循环机制，有效地调整进化策略（ES）参数，并通过调整 ES 参数的迭代循环过程，演示了利用 LLMs 改进 ES 算法性能的可行性。

May, 2024

需要多个退出点：加速统一视觉语言模型的动态提前退出

通过提出一种名为 MuE 的新颖的早期退出策略，可以在编解码器中动态地跳过图像和文本多模态的不同层，从而提高推理效率，该方法可将预期推理时间缩短 50％和 40％，同时保持高达 99％和 96％的性能。

Nov, 2022

通过启用中间层解码加速 LLM 推理

我们的研究工作通过指令调整大型语言模型的推理过程，提升其效率同时保持生成质量，这是推广应用这类模型的重要一步。

Oct, 2023

一种基于简单哈希的语言理解和生成早期退出方法

本文提出了一种基于哈希技术的早期结束方法，即 HashEE 方法，以替代 learn-to-exit 模块来预测每个实例的困难度，并将每个令牌分配到一个固定的退出层。实验证明，与先前的早期退出方法相比，该方法在分类、回归和生成任务中能够实现更高的性能，且需要更少的 FLOPs 和推理时间，并且不需要内部分类器或额外参数。

Mar, 2022

专注于神经元：神经元级别的大语言模型有监督微调

大型语言模型 (LLMs) 由表现出各种行为和角色的神经元构成，随着模型规模的扩大，它们变得越来越多样化。研究发现，并非所有神经元在不同的数据集上都活跃，这种稀疏性与任务特定能力呈正相关，为模型剪枝和训练效率的进展提供了基础。传统的微调方法涉及 LLMs 的所有参数，计算复杂且可能不必要。相反，参数高效的微调方法旨在减少可训练参数的数量，但它们仍在相对宏观（例如，层级）上操作。我们介绍了神经元级微调 (NeFT)，一种将参数训练的粒度细化到单个神经元，实现更精确、计算更高效的模型更新的新方法。实验结果表明，NeFT 不仅超过了全参数微调和参数高效微调的性能，还为神经元分析提供了深入洞见。

Mar, 2024

通过提前退出进行投机解码以加速 LLM 推断，并采用汤普森抽样控制机制

在大型语言模型中，我们提出了一种新的方法，即具有无损加速的早期退出推理（EESD），通过在前 N 层后引入早期退出结构，利用语言模型的一部分生成初步令牌，并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制，利用汤普森采样调节生成过程，自动确定每一轮的初步令牌数量。实验结果表明，与先前的方法相比，我们的方法在解码令牌时具有明显的加速效果。

Jun, 2024

ConsistentEE：一种一致和硬度引导的加速语言模型推理的早期退出方法

ConsistentEE 是一种早期退出方法，使用强化学习将退出过程形式化，通过添加策略网络来决定实例是否退出或继续，并利用一个记忆层来衡量实例的难度，从而提高加速和准确性。在自然语言理解和生成任务中，实验证明我们的方法优于其他基线模型。

Dec, 2023

面向更高参数效率的大语言模型微调：一篇立场论文

该研究论文从参数高效微调（PEFT）对大语言模型（LLMs）的迫切需求出发，强调了当前状态和进一步研究该主题的必要性，以及需要解决的重要挑战和开放问题，包括创新 PEFT 架构、不同学习设置的 PEFT、结合模型压缩技术的 PEFT 以及多模态 LLMs 的 PEFT 探索。通过提出该立场论文，我们旨在激发进一步的研究，并促进围绕 LLMs 的更高效和可访问的 PEFT 的讨论。

Nov, 2023