推理过程中不需要所有 LLM 层

Mar, 2024

Not all Layers of LLMs are Necessary during Inference

Siqi Fan, Xin Jiang, Xiang Li, Xuying Meng, Peng Han...

TL;DR利用适应性输入实例的简单算法 AdaInfer，在 Large Language Models 的推理阶段中使用浅层次进行简单实例的推理和深层次进行困难实例的推理，可在节省计算资源的同时保持性能。

Abstract

The inference phase of large language models (LLMs) is very expensive. An ideal inference stage of LLMs could utilize fewer computational resources while still maintaining its capabilities (e.g., generalization and in-context learning ability). In this paper, we try to answer the quest

large language models llm inference shallow layers deep layers adainfer

发现论文，激发创造

通过启用中间层解码加速 LLM 推理

我们的研究工作通过指令调整大型语言模型的推理过程，提升其效率同时保持生成质量，这是推广应用这类模型的重要一步。

Oct, 2023

LLM 的卓越稳健性：推理阶段？

通过删除和交换相邻层，我们展示并研究了大型语言模型的显著健壮性，并发现删除和交换方法可以在不进行微调的情况下保留原始模型预测准确性的 72-95％，而具有更多层的模型表现出更强的健壮性。基于逐层干预和进一步实验的结果，我们假设了跨 8 个不同模型的四个普遍推理阶段的存在，即去标记化，特征工程，预测集成和残余调整。第一个阶段将局部信息融合，将原始令牌表示提升为更高级别的上下文表示。接下来是任务和实体特定特征的迭代改进。然后，模型的后半部分开始时进行相位转变，由于专用模型组件，隐藏表示与词汇空间更加一致。最后，最后一层通过消除向预测添加噪音的过时特征来调整后续令牌分布。

Jun, 2024

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过 Transformer LLMs 中后面的 attention 子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

使用大型语言模型进行可解释的逻辑推理的 Selection-Inference 方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的 LLMa 在两代热门 GPU（NVIDIA V100 和 A100）以及两个数据集（Alpaca 和 GSM8K）上的推理性能与推理能源成本。

Oct, 2023

大型语言模型的推理效率从粗粒度到细粒度评估

通过对各种代码库的推理性能进行粗细的分析，本研究提供了研究人员评估代码库和改进推理策略的宝贵综合结果。

Apr, 2024

理解 LLMs: 从训练到推理的综合概述

ChatGPT 的引入使得大型语言模型（LLM）被广泛应用于解决后续任务，而在此背景下，低成本的 LLM 培训和部署代表着未来的发展趋势。本文回顾了与这一新兴趋势相一致的大型语言模型培训技术和推理部署技术的演变。在培训方面，讨论了数据预处理、培训架构、预训练任务、并行培训以及与模型微调相关的内容。在推理方面，本文涵盖了模型压缩、并行计算、内存调度和结构优化等主题。它还探讨了 LLM 的利用并提供了对其未来发展的见解。

Jan, 2024

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

深层网络的不合理无效性

通过对热门的开放式权重预训练 LLMs 进行实证研究，我们发现在移除大部分（最多一半）层之前，其在不同的问答基准测试中仅出现轻微性能下降；因此，层剪枝方法可以在减少计算资源的同时提高推理的内存和延迟，并暗示当前的预训练方法未充分利用网络较深层的参数，或者浅层起到了关键的存储知识的作用。

Mar, 2024