模块化注意力复用技术用于低延迟推理

Nov, 2023

模块化注意力复用技术用于低延迟推理

Prompt Cache: Modular Attention Reuse for Low-Latency Inference

In Gim, Guojun Chen, Seung-seob Lee, Nikhil Sarda, Anurag Khandelwal...

TL;DR使用 Prompt Cache 方法，可以通过在不同的大型语言模型提示之间重复使用注意力状态来加快推理速度。这种方法通过预先计算和存储输入提示中经常出现的文本段的注意力状态，以在用户提示中高效地重用它们。在多个大型语言模型上的评估显示，Prompt Cache 显著减少了从第一个标记到输出的延迟，尤其对于基于文档的问答和推荐等较长的提示。改进范围从基于 GPU 的推理中的 8 倍到基于 CPU 的推理中的 60 倍，同时保持输出准确性，无需修改模型参数。

Abstract

We present prompt cache, an approach for accelerating inference for large language models (LLM) by reusing attention states across different LLM prompts. Many input prompts have overlapping text segments, such as

prompt cache large language models inference acceleration attention states reuse

发现论文，激发创造

通过嵌入相似性实现高效的提示缓存

通过提示缓存改善大型语言模型的推理效率，专注于通过嵌入相似性预测单轮问答任务的提示缓存的准确性，并提出了基于蒸馏的方法来优化嵌入，实验结果显示我们的模型在缓存效率上优于之前的嵌入模型。

Feb, 2024

使用中继注意力实现高效的大型语言模型与长系统提示的服务

通过一种名为 RelayAttention 的算法，该论文提出了一种提高大型语言模型（LLM）服务效率的方法，解决了长系统提示导致的吞吐量 / 延迟瓶颈问题，该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态，从而消除了系统提示的冗余。

Feb, 2024

ConvoCache：智能重用聊天机器人回复

ConvoCache 是一个会话缓存系统，通过在过去找到语义上相似的提示并重复使用响应来解决口语聊天机器人中慢且昂贵的生成式 AI 模型的问题，可以在平均延迟为 214ms、使用缓存回答 89% 的提示的情况下应用 90% 的 UniEval 一致性阈值，从而减少成本。

Jun, 2024

MemoryPrompt：用于提升预训练语言模型中上下文追踪的轻量级封装

Transformer-based language models can be enhanced with MemoryPrompt, a leaner approach that complements the model with a small auxiliary recurrent network, improving the model's ability to track multiple fact updates and avoiding catastrophic forgetting when adapted to new tasks.

Feb, 2024

批量提示：使用大型语言模型 API 进行高效推理

本文提出了批处理提示的简单替代提示方法，可以在批量中运行 LLM 的推理，而不是逐个样本。我们在许多数据集上验证了该方法的有效性，证明其可以同时减少时间和代币成本，并提高性能。

Jan, 2023

低延迟大型语言模型的 LiveMind：具有同时推理的特性

本文介绍了一种用于大型语言模型（LLMs）的新型低延迟推断框架，使 LLMs 能够使用不完整的提示进行推断，并通过重新分配计算过程到提示输入阶段，实现了大幅度的延迟降低，从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性，允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比，我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59％，同时保持相当的准确性。此外，我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型（SLM）进行输出，与 SLM 基线相比，我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68％，准确性提高了 5.5％。对于超过 20 个句子的长提示，响应延迟可以降低高达 93％。

Jun, 2024

缓存我如果可以：一种在线的成本感知教师 - 学生框架，用于减少对大型语言模型的调用

通过缓存以前的机器学习模型响应并在中小企业端训练一个本地经济型模型，我们提出了一种降低调用大型语言模型次数的框架，使用两个常见的商业任务（意图识别和情感分析）以及两个经济型学生（k-NN 分类器和多层感知器）来展现实验结果表明，除了稍微降低性能外，还可以获得显著的运营费用节约。

Oct, 2023

AttentionStore：大型语言模型服务中多轮会话中的经济高效注意力重用

通过 AttentionStore，可以显著降低多轮对话中重复计算的开销，提高首个令牌的时间及预填充处理性能，减少端到端推理成本。

Mar, 2024

FastMem：快速记忆提示优化大型语言模型的上下文意识

通过快速记忆引导文本，FastMem 方法提高了大型语言模型的上下文感知能力，从而显著提升阅读理解、文本摘要和输出结构的准确性。

Jun, 2024

通过高效的上下文学习方法增强 ChatGPT 能力的 OverPrompt

本论文提出了一种名为 OverPrompt 的上下文学习方法来提高 LLM 效率和性能，同时通过处理多个输入并行来实现。OverPrompt 有效地增强了事实核查和情感分析任务，并使用合成数据组进行了性能增强，这提出了数据增强的一种可行方法。

May, 2023