利用缓存在小型设备上实现 SLU

Nov, 2023

Leveraging cache to enable SLU on tiny devices

Afsara Benazir, Zhiming Xu, Felix Xiaozhu Lin

TL;DR探讨在类微控制器嵌入式设备上的口语理解（SLU），将设备上的执行与云端卸载结合在一起。通过在设备的语音输入中利用时间局部性，重复使用最近的 SLU 推断。我们的想法很简单：让设备将新输入与缓存结果进行匹配，并只将匹配不成功的输入卸载到云端进行完整的推断。实现这个想法，然而，是非常复杂的：设备需要以稳健、低成本的方式比较声学特征。为了达到这个目的，我们提出了 XYZ，一种适用于微型设备的语音缓存。它通过聚类的原始声音单元序列和音素序列两个级别来匹配语音输入，两个表示方法相辅相成，提供了成本 / 准确性的互补权衡。为了进一步提高准确性，我们的缓存是可以学习的：通过不匹配的以及卸载到云端的输入，它不断地微调设备的特征提取器（在云端的辅助下）。我们在一款现成的 STM32 微控制器上实现了 XYZ。实现的结果具有 2MB 的小内存占用量。在具有挑战性的语音基准测试中进行评估时，我们的系统能够在设备上解决 45% 至 90% 的输入，与卸载到流行的云语音服务相比，平均延迟降低了高达 80%。即使在对抗性环境（噪声环境、冷缓存或多个用户共享设备）中，我们的优势仍然显著。

Abstract

This paper addresses spoken language understanding (SLU) on microcontroller-like embedded devices, integrating on-device execution with

spoken language understanding microcontroller-like embedded devices on-device execution cloud offloading speech cache

发现论文，激发创造

缓存我如果可以：一种在线的成本感知教师 - 学生框架，用于减少对大型语言模型的调用

通过缓存以前的机器学习模型响应并在中小企业端训练一个本地经济型模型，我们提出了一种降低调用大型语言模型次数的框架，使用两个常见的商业任务（意图识别和情感分析）以及两个经济型学生（k-NN 分类器和多层感知器）来展现实验结果表明，除了稍微降低性能外，还可以获得显著的运营费用节约。

Oct, 2023

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在 DRAM 之外，以满足超过 DRAM 容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。

Dec, 2023

缓存与提炼：优化大型语言模型的 API 调用

大规模部署生成式 AI 工具常依赖于昂贵的 API 调用以满足用户查询。为了节省这些调用的频率，可以使用一个较小的语言模型 - 学生 - 它会持续训练以适应 LLM 的响应。这个学生逐渐增强独立处理用户请求的能力，这个过程我们称之为神经缓存。神经缓存的关键因素是决定哪些请求应由学生单独处理，哪些请求应重定向到 LLM 以辅助学生学习的策略。在这项研究中，我们关注分类任务，并将一系列经典的基于主动学习的选择标准作为策略进行考虑。我们的实验证明，边界采样和委员会查询在任务和预算方面都带来持续的好处。

Oct, 2023

低延迟大型语言模型的 LiveMind：具有同时推理的特性

本文介绍了一种用于大型语言模型（LLMs）的新型低延迟推断框架，使 LLMs 能够使用不完整的提示进行推断，并通过重新分配计算过程到提示输入阶段，实现了大幅度的延迟降低，从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性，允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比，我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59％，同时保持相当的准确性。此外，我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型（SLM）进行输出，与 SLM 基线相比，我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68％，准确性提高了 5.5％。对于超过 20 个句子的长提示，响应延迟可以降低高达 93％。

Jun, 2024

开放词汇在线语言建模的无限缓存模型

提出了一种扩展连续缓存模型的方法，通过使用大规模的非参数内存组件，存储过去观察到的所有隐藏激活，并利用近似最近邻搜索和量化算法，高效地存储和搜索数百万的表示，显著提高了预训练语言模型在新分布上的困惑度，并且可以有效地扩展到比以前提出的本地缓存模型更大的上下文范围。

Nov, 2017

用于语义缓存测试输入生成的 LLM

LLMs 被用于测试输入生成以及语义应用，并探讨了语义缓存技术的相关问题和考虑事项。

Jan, 2024

模块化注意力复用技术用于低延迟推理

使用 Prompt Cache 方法，可以通过在不同的大型语言模型提示之间重复使用注意力状态来加快推理速度。这种方法通过预先计算和存储输入提示中经常出现的文本段的注意力状态，以在用户提示中高效地重用它们。在多个大型语言模型上的评估显示，Prompt Cache 显著减少了从第一个标记到输出的延迟，尤其对于基于文档的问答和推荐等较长的提示。改进范围从基于 GPU 的推理中的 8 倍到基于 CPU 的推理中的 60 倍，同时保持输出准确性，无需修改模型参数。

Nov, 2023

LLM-dCache: 使用 GPT 驱动的本地化数据缓存改善增强工具的 LLM

本研究介绍了 LLM-dCache，它将缓存操作视为可调用的 API 函数，通过与现有的函数调用机制无缝集成，使得大型语言模型能够在管理数据访问时提高效率。在大规模平台上的测试表明，我们的方法在不同的 LLM 和提示技术上将 Copilot 的时间平均提升了 1.24 倍。

Jun, 2024

使用连续缓存来改进神经语言模型

本文提出一种扩展神经网络语言模型以适应最近历史的方法，将过去的隐藏活性作为记忆保存，并通过与当前隐藏激活的点积来访问它们，此机制非常高效，能够扩展至非常大的存储空间。同时，作者指出了神经网络外部存储与基于计数的语言模型中缓存模型之间的联系，并在几个语言模型数据集上证明了他们的方法比最近的记忆增强网络性能显着优越。

Dec, 2016

大模型推断中的最优缓存和模型复用

本文旨在研究减少大规模语言模型在推理阶段资源消耗和延迟方面的两种方法：使用缓存来存储之前的查询，学习一个模型多路复用器来选择一个模型集合来进行查询处理，并提供了一种优化算法来同时减少离线和在线表格设置中的推理成本。其中使用 GDSF 或 LEC 的缓存算法，再结合模型多复用器，可以在离线和在线设置下均取得最优水平。

Jun, 2023