响应长度感知与序列调度：基于 LLM 增强的 LLM 推断管道

May, 2023

响应长度感知与序列调度：基于 LLM 增强的 LLM 推断管道

Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline

Zangwei Zheng, Xiaozhe Ren, Fuzhao Xue, Yang Luo, Xin Jiang...

TL;DR本文提出了一种高效的大语言模型推理流水线方法，该方法利用大语言模型的潜力来准确感知和预测响应长度，并通过引入有效的序列调度技术对响应长度相似的查询进行微批处理，从而实现了 86％的推理吞吐量的提高，同时不影响其效果。该方法是现有工具包（如 FlashAttention，Quantization）中的一个宝贵补充。

Abstract

large language models (LLMs) have revolutionized the field of AI, demonstrating unprecedented capacity across various tasks. However, the inference process for LLMs comes with significant computational costs. In this paper, we propose an efficient LLM →

large language models inference pipeline efficient sequence scheduling inference acceleration techniques llama-based model

发现论文，激发创造

低延迟大型语言模型的 LiveMind：具有同时推理的特性

本文介绍了一种用于大型语言模型（LLMs）的新型低延迟推断框架，使 LLMs 能够使用不完整的提示进行推断，并通过重新分配计算过程到提示输入阶段，实现了大幅度的延迟降低，从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性，允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比，我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59％，同时保持相当的准确性。此外，我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型（SLM）进行输出，与 SLM 基线相比，我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68％，准确性提高了 5.5％。对于超过 20 个句子的长提示，响应延迟可以降低高达 93％。

Jun, 2024

InfLLM: 揭示 LLM 对于无需训练的记忆理解极长序列的内在能力

通过引入一种无需训练的基于内存的方法 InfLLM，使得大型语言模型 (LLM) 能够高效处理长序列并捕获远距离依赖关系。

Feb, 2024

QuickLLaMA: 大型语言模型的查询感知推理加速

通过引入针对大型语言模型（LLMs）的查询感知推理（Q-LLM）系统，我们解决了在序列中捕捉长距离依赖以实现深层语义理解的问题，并且在 LLaMA3 和 Mistral 基准上得到了显著的性能提升。

Jun, 2024

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

基于代理模型的序列长度预测的高效互动 LLM 服务

通过使用轻量级代理模型来预测 LLM 输出序列长度，我们提出了一种具有推测的最短作业先执行调度程序，以解决 LLM 非确定性特性并实现高效的互动式 LLM 服务。相对于 FCFS 调度程序，在无批处理、动态批处理和连续批处理设置下，对真实世界的数据集和生产工作负载轨迹进行评估显示 SSJF 能够减少平均作业完成时间 30.5-39.6%，同时提高吞吐量 2.2-3.6 倍。

Apr, 2024

使用大型语言模型进行可解释的逻辑推理的 Selection-Inference 方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

度量感知的 LLM 推理

大语言模型 (LLMs) 在一系列自然语言处理任务上取得了出色的结果，但当前的推理策略对于许多任务和评估指标来说并不是最优的。为此，本研究提出了基于度量感知的 LLM 推理方法，通过决策理论在推理过程中针对特定指标进行优化，我们在学术基准和公开模型上取得了改进。

Mar, 2024

超越极限：大型语言模型中扩展上下文长度的技术综述

本文调查了扩展序列长度的技术和方法，包括架构修改和注意机制的改变等多种方法，并讨论了当前方法的局限性和未来研究方向建议，强调了序列长度对大型语言模型进一步发展的重要性。

Feb, 2024

XL3M：一种基于分段推理的无需训练的 LLM 长度扩展框架

用 XL3M 框架，将上下文分解成多个独立片段并通过衡量其与 “问题” 的相关性来构建一个简明的关键上下文，从而解决了大语言模型在处理超长文本时的泛化失败问题，并在推理任务中展现了卓越的性能。

May, 2024

通过启用中间层解码加速 LLM 推理

我们的研究工作通过指令调整大型语言模型的推理过程，提升其效率同时保持生成质量，这是推广应用这类模型的重要一步。

Oct, 2023