SUBLLM：LLM 的一种新型高效架构及令牌序列子采样

Jun, 2024

SUBLLM：LLM 的一种新型高效架构及令牌序列子采样

SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM

Quandong Wang, Yuxuan Yuan, Xiaoyu Yang, Ruike Zhang, Kang Zhao...

TL;DR通过提出 SUBLLM 架构，本文解决了大型语言模型中训练和推断的效率问题，通过引入子采样、上采样和旁路模块，SUBLLM 在训练和推断速度以及内存使用方面取得了显著的改进。

Abstract

While large language models (LLMs) have achieved remarkable success in various fields, the efficiency of training and inference remains a major challenge. To address this issue, we propose subllm, short for

large language models subllm training efficiency inference efficiency subsampling

发现论文，激发创造

MobileLLM: 优化千亿级语言模型，以满足设备上的使用需求

通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制，我们提出了一种名为 MobileLLM 的强基线网络，它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外，我们还提出了一种即时的分块权重共享方法，不增加模型大小且仅有微小的延迟开销。MobileLLM-LS 模型进一步提升了 0.7%/0.8% 的准确度，相较于 MobileLLM 125M/350M。此外，MobileLLM 模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升，并在 API 调用任务中表现出接近 LLaMA-v2 7B 的正确性，突显了小型模型在常见设备使用情景中的能力。

Feb, 2024

自动生成巨大，快速生成：快速自回归解码的 LLM-to-SLM

我们提出了一种混合方法，结合不同规模的语言模型以提高自回归解码的效率，同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记，然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比，我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升，但只有 1-2% 的性能损失。

Feb, 2024

InfLLM: 揭示 LLM 对于无需训练的记忆理解极长序列的内在能力

通过引入一种无需训练的基于内存的方法 InfLLM，使得大型语言模型 (LLM) 能够高效处理长序列并捕获远距离依赖关系。

Feb, 2024

草案和验证：通过自我推理解码实现无损大语言模型的加速

我们提出了一种新颖的推理方案，自我推测解码，用于加速大型语言模型（LLMs），无需辅助模型。该方法通过两个阶段的过程来实现：草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记，通过在草稿期间选择性跳过某些中间层来实现。然后，验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同，从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用，是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明，加速比最高可达 1.73 倍。

Sep, 2023

关于多模态大型语言模型的推理解码

通过在 MLLMs 中应用推测解码，特别是 LLaVA 7B，我们展示了一个仅语言模型可以作为推测解码的优秀起草模型，绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明，推测解码可以在三个不同任务中实现高达 2.37 倍的内存速度提升，使用的是我们从头开始训练的 115M 参数语言模型。此外，我们还引入了一个紧凑的 LLaVA 起草模型，其中包含图像适配器，在图像字幕生成方面表现出边际性能增益，并在其他任务中保持可比较的结果。

Apr, 2024

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

使用词汇缩减的大型语言模型推理

大型语言模型的推理对计算和内存要求较高，因此我们通过词汇筛选改进了其性能，可以显著减少内存使用并提高生成速度。然而，我们也发现了此类词汇选择方法的局限性，并提出了未来研究的方向。

Nov, 2023

LLM 推理揭示：调查及屋顶线模型洞见

大型语言模型 (LLM) 推理的高效领域正迅速发展，我们的研究通过基于屋顶线模型的框架，系统分析 LLM 推理技术，鉴别 LLM 部署瓶颈，深入理解实际设备的实际方面，并综合整理权重优化、解码算法改进和硬件系统增强等关键领域的最新进展，提供了全面而细致的高效 LLM 推理挑战和解决方案探索。

Feb, 2024

通过启用中间层解码加速 LLM 推理

我们的研究工作通过指令调整大型语言模型的推理过程，提升其效率同时保持生成质量，这是推广应用这类模型的重要一步。

Oct, 2023

通过自适应取样实现大型语言模型和文本到图像模型的数据高效评估

SubLIME 是一个数据高效评估框架，利用自适应采样技术，如聚类和质量导向方法，创建代表性的基准子集，以确保与完整数据集在模型排名方面具有高皮尔逊相关系数。该框架在评估低资源语言模型和文本到图像模型方面提供了一种灵活且经济高效的解决方案。

Jun, 2024