高效的早退大语言模型推理框架

Jul, 2024

An Efficient Inference Framework for Early-exit Large Language Models

Ruijie Miao, Yihan Yan, Xinshuo Yao, Tong Yang

TL;DR本研究针对早退模型的推理效率问题，提出了一个高效的推理框架。关键创新在于提出了逐迭代的批量推理和KV缓存管理方案，显著提高了推理速度。实验结果表明，与原始的全层vLLM相比，该框架实现了最高1.25倍的速度提升。

Abstract

Building efficient inference framework has gained increasing interests for research community. Early-exit models, a variant of LLMs, improves the Inference efficiency of LLMs by skipping rest layers and directly

发现论文，激发创造

SkipDecode: 自回归跳过解码与批处理和缓存的高效LLM推理

通过SkipDecode方法在批处理推理和KV缓存优化技术的直接兼容性下，实现大语言模型的速度提升2倍至5倍，同时保持很小的回归，解决了提前终止计算的先前工作中存在的限制。

Jul, 2023

通过启用中间层解码加速LLM推理

我们的研究工作通过指令调整大型语言模型的推理过程，提升其效率同时保持生成质量，这是推广应用这类模型的重要一步。

Oct, 2023

EE-LLM: 基于3D并行的大规模训练与推理的早退出大型语言模型

EE-LLM是一个基于大规模训练和推理的早期退出大型语言模型的框架，通过支持训练和推理的大规模3D并行性，EE-LLM在扩展早期退出LLMs方面迈出了关键的一步，通过实现多种算法创新和性能优化，实现了出色的训练效率和推理加速。

Dec, 2023

使用KV缓存压缩合成循环以实现高效的LLM推理

通过整合一个（几乎不消耗）常量大小的缓存与基于驱逐策略的缓存方法，提出了LESS，以在过去的解码步骤中查询所有标记。它在时间上保留信息的能力可在多种任务中展现出优点，帮助降低性能差距和提高效率。

Feb, 2024

SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

通过确定关注层的重要性，我们提出了SqueezeAttention来精确优化动态分配关键值缓存的预算，并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化，SqueezeAttention在各种大型语言模型和基准测试中实现了30%至70%的内存减少和最高2.2倍的吞吐量提升。

Apr, 2024

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过Transformer LLMs中后面的attention子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在Llama 2 7B上观察到21%的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

层级跳过: 在推断中实现早期退出和自我推测解码

通过应用层丢弃和早期退出损失的训练技术，在推理过程中加快大型语言模型的速度，并推出了一种新颖的自我推测编码解决方案，该解决方案减少了内存占用，并在不同训练任务上实现了高达2.16倍的加速。

Apr, 2024

InfiniGen：基于动态 KV 缓存管理的大规模语言模型的高效生成推断

Transformer-based LLMs often face challenges in serving long-text generation due to the enormous memory footprint of the KV cache, but InfiniGen presents a novel KV cache management framework that improves the performance of offloading-based systems by up to 3.00x compared to prior methods while maintaining better model accuracy.

Jun, 2024

通过自监督早期退出加速大型语言模型推理

本文针对大型预训练语言模型推理中的高计算需求问题，提出了一种新颖的早期退出技术，旨在加速推理过程。通过在现有的变换器层上集成自我监督训练的早期退出“头”，可以实现基于信心指标的条件性终止，从而在保证准确性的同时减少计算时间，极大提升了大型语言模型在资源受限环境下的实际应用潜力。

Jul, 2024