大模型推断中的最优缓存和模型复用

Jun, 2023

大模型推断中的最优缓存和模型复用

On Optimal Caching and Model Multiplexing for Large Model Inference

Banghua Zhu, Ying Sheng, Lianmin Zheng, Clark Barrett, Michael I. Jordan...

TL;DR本文旨在研究减少大规模语言模型在推理阶段资源消耗和延迟方面的两种方法：使用缓存来存储之前的查询，学习一个模型多路复用器来选择一个模型集合来进行查询处理，并提供了一种优化算法来同时减少离线和在线表格设置中的推理成本。其中使用 GDSF 或 LEC 的缓存算法，再结合模型多复用器，可以在离线和在线设置下均取得最优水平。

Abstract

large language models (LLMs) and other large foundation models have achieved noteworthy success, but their size exacerbates existing resource consumption and latency challenges. In particular, the large-scale dep

large language models resource consumption inference cache model multiplexer

发现论文，激发创造

边缘智能优化大型语言模型推断 —— 批处理和量化

通过部署批处理技术和资源有限的边缘设备上的模型量化，我们在此论文中提出了一种针对基于 Transformer 解码器的大语言模型推断的边缘智能优化问题，旨在通过批处理调度和通信、计算资源的联合分配来最大化推断吞吐量，同时考虑边缘资源约束和不同用户对延迟和准确性的需求。为了解决这个 NP-hard 问题，我们开发了一种在可行时间复杂度内运行的带有在线树剪枝的最优深度优先搜索算法（DFTSP）。模拟结果表明，DFTSP 在各种用户设置和量化技术中超越了其他批处理基准，并且与蛮力搜索方法相比，它的时间复杂度降低了 45% 以上。

May, 2024

FlashDecoding++: 在 GPU 上更快的大型语言模型推理

FlashDecoding++ 是支持主流 LLM 和硬件后端的快速 LLM 推理引擎，通过引入异步 softmax、平坦 GEMM 优化和启发式数据流等技术，相较于 Hugging Face 实现，在 NVIDIA 和 AMD GPU 上实现了最高 4.86 倍和 2.18 倍的加速，在主流 LLMs 上平均实现了 1.37 倍的速度提升。

Nov, 2023

FrugalGPT：如何在降低成本和提高性能的同时使用大型语言模型

该研究分析了使用大型语言模型的成本，并提出了三种降低推理成本的策略，包括提示适应，LLM 近似和 LLM 级联。基于这些策略，我们提出了 FrugalGPT，它可以使用不同的组合来降低成本并提高准确性。

May, 2023

缓存与提炼：优化大型语言模型的 API 调用

大规模部署生成式 AI 工具常依赖于昂贵的 API 调用以满足用户查询。为了节省这些调用的频率，可以使用一个较小的语言模型 - 学生 - 它会持续训练以适应 LLM 的响应。这个学生逐渐增强独立处理用户请求的能力，这个过程我们称之为神经缓存。神经缓存的关键因素是决定哪些请求应由学生单独处理，哪些请求应重定向到 LLM 以辅助学生学习的策略。在这项研究中，我们关注分类任务，并将一系列经典的基于主动学习的选择标准作为策略进行考虑。我们的实验证明，边界采样和委员会查询在任务和预算方面都带来持续的好处。

Oct, 2023

最大推理准确性和能效的选择性任务卸载用于实时物联网感知系统

通过提出轻量级混合遗传算法来解决小型推理模型在边缘设备上动态分配推理任务以最大化推理准确度的问题，并与其他演化方法进行比较。

Feb, 2024

LLM-dCache: 使用 GPT 驱动的本地化数据缓存改善增强工具的 LLM

本研究介绍了 LLM-dCache，它将缓存操作视为可调用的 API 函数，通过与现有的函数调用机制无缝集成，使得大型语言模型能够在管理数据访问时提高效率。在大规模平台上的测试表明，我们的方法在不同的 LLM 和提示技术上将 Copilot 的时间平均提升了 1.24 倍。

Jun, 2024

大语言模型快速分布式推理服务

FastServe 是一种分布式推理服务系统，利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间，并采用 GPU 内存管理机制，与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。

May, 2023

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

缓存我如果可以：一种在线的成本感知教师 - 学生框架，用于减少对大型语言模型的调用

通过缓存以前的机器学习模型响应并在中小企业端训练一个本地经济型模型，我们提出了一种降低调用大型语言模型次数的框架，使用两个常见的商业任务（意图识别和情感分析）以及两个经济型学生（k-NN 分类器和多层感知器）来展现实验结果表明，除了稍微降低性能外，还可以获得显著的运营费用节约。

Oct, 2023

动态内存压缩：为加速推断而改进语言模型

通过动态内存压缩 (DMC) 方法，我们可以提高基于 Transformers 的大型语言模型 (LLMs) 在自回归推理中的吞吐量，在保持原有性能的同时，使用不同的压缩率来适应不同的注意头和层级，并可以与其他技术相结合以提供更好的结果。

Mar, 2024