通过嵌入相似性实现高效的提示缓存

Feb, 2024

通过嵌入相似性实现高效的提示缓存

Efficient Prompt Caching via Embedding Similarity

Hanlin Zhu, Banghua Zhu, Jiantao Jiao

TL;DR通过提示缓存改善大型语言模型的推理效率，专注于通过嵌入相似性预测单轮问答任务的提示缓存的准确性，并提出了基于蒸馏的方法来优化嵌入，实验结果显示我们的模型在缓存效率上优于之前的嵌入模型。

Abstract

large language models (LLMs) have achieved huge success in numerous natural language process (NLP) tasks. However, it faces the challenge of significant resource consumption during inference. In this paper, we aim to improve the →

large language models inference efficiency prompt caching embedding similarity caching prediction

发现论文，激发创造

模块化注意力复用技术用于低延迟推理

使用 Prompt Cache 方法，可以通过在不同的大型语言模型提示之间重复使用注意力状态来加快推理速度。这种方法通过预先计算和存储输入提示中经常出现的文本段的注意力状态，以在用户提示中高效地重用它们。在多个大型语言模型上的评估显示，Prompt Cache 显著减少了从第一个标记到输出的延迟，尤其对于基于文档的问答和推荐等较长的提示。改进范围从基于 GPU 的推理中的 8 倍到基于 CPU 的推理中的 60 倍，同时保持输出准确性，无需修改模型参数。

Nov, 2023

压缩后即提示：通过可转移提示提高 LLM 推理的准确性和效率平衡

本文介绍了一种新的压缩大型语言模型（LLM）的方法：通过使用精确的提示信息作为输入来提高压缩模型的预测准确性，以平衡其准确性和效率。研究表明，压缩 LLMs 通过这种提示学习方法能够匹配或超过原模型的准确性，这为 LLMs 的推断和扩展提供了新的可能性。

May, 2023

软提示检索增强零样本任务泛化能力

本文探索了通过提示调整获得的软提示如何在零样本推理中协助硬提示，以实现任务泛化。结果表明，此简单方法仅增加了 0.007％的额外参数，但在大型基准测试上提高了 2.39％的平均准确率，对不同评估提示的准确性和鲁棒性有更好的排名。

Oct, 2022

低延迟大型语言模型的 LiveMind：具有同时推理的特性

本文介绍了一种用于大型语言模型（LLMs）的新型低延迟推断框架，使 LLMs 能够使用不完整的提示进行推断，并通过重新分配计算过程到提示输入阶段，实现了大幅度的延迟降低，从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性，允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比，我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59％，同时保持相当的准确性。此外，我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型（SLM）进行输出，与 SLM 基线相比，我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68％，准确性提高了 5.5％。对于超过 20 个句子的长提示，响应延迟可以降低高达 93％。

Jun, 2024

缓存我如果可以：一种在线的成本感知教师 - 学生框架，用于减少对大型语言模型的调用

通过缓存以前的机器学习模型响应并在中小企业端训练一个本地经济型模型，我们提出了一种降低调用大型语言模型次数的框架，使用两个常见的商业任务（意图识别和情感分析）以及两个经济型学生（k-NN 分类器和多层感知器）来展现实验结果表明，除了稍微降低性能外，还可以获得显著的运营费用节约。

Oct, 2023

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

批量提示：使用大型语言模型 API 进行高效推理

本文提出了批处理提示的简单替代提示方法，可以在批量中运行 LLM 的推理，而不是逐个样本。我们在许多数据集上验证了该方法的有效性，证明其可以同时减少时间和代币成本，并提高性能。

Jan, 2023

大型语言模型的高效提示方法综述

在这篇论文中，我们对高效提示的各种方法进行了全面的概述，包括使用高效计算和高效设计进行提示的方法，重点关注未来的研究方向。

Apr, 2024

批量提示：以更少的操作实现更多

這篇論文介紹了一種新的提示策略 ——BatchPrompt，以增強語言模型的效能，並通過 Self-reflection-guided EArly Stopping 來減少額外的 token 使用。

Sep, 2023

LLMLingua：压缩大型语言模型推理加速的提示

LLMLingua 是一种粗粒度到细粒度的提示压缩方法，利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法，实现高压缩率下语义完整性的维持，有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明，该方法在性能上达到了最先进的水平，并且能够在保证性能损失很小的情况下进行高达 20 倍的压缩。

Oct, 2023