预打包：大语言模型快速预填和增加吞吐量的简单方法

Apr, 2024

预打包：大语言模型快速预填和增加吞吐量的简单方法

Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models

Siyan Zhao, Daniel Israel, Guy Van den Broeck, Aditya Grover

TL;DR使用 Prepacking 方法优化 transformer-based 大型语言模型的 prefilling 计算，通过将不同长度的输入 prompt 组合成一个序列，并使用 bin-packing 算法将多个序列打包成一个紧凑的批次，从而减少冗余计算和提高内存效率。

Abstract

During inference for transformer-based large language models (LLM), prefilling is the computation of the key-value (KV) cache for input tokens in the prompt prior to autoregressive generation. For longer input pr

transformer-based large language models prefilling decoding time prepacking memory efficiency

发现论文，激发创造

批量提示：以更少的操作实现更多

這篇論文介紹了一種新的提示策略 ——BatchPrompt，以增強語言模型的效能，並通過 Self-reflection-guided EArly Stopping 來減少額外的 token 使用。

Sep, 2023

模块化注意力复用技术用于低延迟推理

使用 Prompt Cache 方法，可以通过在不同的大型语言模型提示之间重复使用注意力状态来加快推理速度。这种方法通过预先计算和存储输入提示中经常出现的文本段的注意力状态，以在用户提示中高效地重用它们。在多个大型语言模型上的评估显示，Prompt Cache 显著减少了从第一个标记到输出的延迟，尤其对于基于文档的问答和推荐等较长的提示。改进范围从基于 GPU 的推理中的 8 倍到基于 CPU 的推理中的 60 倍，同时保持输出准确性，无需修改模型参数。

Nov, 2023

减少截断改善语言建模

通过我们提出的 Best-fit Packing 方法，我们能够在保持训练效率的同时，完全消除了不必要的截断，并显著提高了模型的性能。

Apr, 2024

批量提示：使用大型语言模型 API 进行高效推理

本文提出了批处理提示的简单替代提示方法，可以在批量中运行 LLM 的推理，而不是逐个样本。我们在许多数据集上验证了该方法的有效性，证明其可以同时减少时间和代币成本，并提高性能。

Jan, 2023

LLMLingua：压缩大型语言模型推理加速的提示

LLMLingua 是一种粗粒度到细粒度的提示压缩方法，利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法，实现高压缩率下语义完整性的维持，有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明，该方法在性能上达到了最先进的水平，并且能够在保证性能损失很小的情况下进行高达 20 倍的压缩。

Oct, 2023

上下文预训练：超越文档边界的语言建模

大型语言模型通过 In-Context 预训练，在处理涉及相关文档的任务时，能够显著提高性能，包括复杂的语境推理、长文本推理、检索增强等。

Oct, 2023

MemoryPrompt：用于提升预训练语言模型中上下文追踪的轻量级封装

Transformer-based language models can be enhanced with MemoryPrompt, a leaner approach that complements the model with a small auxiliary recurrent network, improving the model's ability to track multiple fact updates and avoiding catastrophic forgetting when adapted to new tasks.

Feb, 2024

Prompt Injection: 固定输入参数化

本文提出了一种名为 Prompt Injection（PI）的新方法，通过将提示注入 LM 的参数中，来代替在输入中添加固定提示的方法，以提高其在特定任务上的性能。在实现固定提示较长的情况下，PI 的操作效率比之前的方法高达 280 倍。我们进一步探究了 PI 的方法学，并在特定任务下展示了其良好的效果，结果表明 PI 在特定任务下是一种很有前途的方向。

May, 2022

SnapKV: LLM 在生成之前了解您要寻找的内容

SnapKV 是一种创新且无需微调的方法，它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小，从而在处理长输入序列时显著降低了计算开销和内存占用，同时保持了与基准模型相当的性能。

Apr, 2024

预训练语言模型的大型产品密钥存储器

本文研究了如何将 Product Key Memory（PKM）应用于预训练语言模型中，以提高模型容量和利用率，并验证了通过初始化和增加 PKM 来提高预训练和下游任务性能的有效性。

Oct, 2020