大语言模型的隐私感知语义缓存

Mar, 2024

Privacy-Aware Semantic Cache for Large Language Models

Waris Gill, Mohamed Elidrisi, Pallavi Kalapatapu, Ali Anwar, Muhammad Ali Gulzar

TL;DRMeanCache 是一种用于 LLM 的语义缓存，通过识别语义相似的查询来确定缓存是否命中，降低了计算成本，服务提供者负载和环境影响，同时使用联邦学习在各个用户之间进行分布式训练查询相似性模型，不违反隐私。与 GPTCache 相比，MeanCache 在语义缓存命中与未命中的决策中取得了大约 17% 的 F - 得分增加和 20% 的精确度增加，并且在减少存储需求方面有了 83% 的提升和在语义缓存命中与未命中的决策加速方面有了 11% 的提升，仍然超过了 GPTCache。

Abstract

large language models (llms) like ChatGPT, Google Bard, Claude, and Llama 2 have revolutionized natural language processing and search engine dynamics. However, these models incur exceptionally high computational

large language models llms caching methods meancache federated learning

发现论文，激发创造

面向大型语言模型自动聊天服务的语义缓存

通过对真实世界的人机交互数据进行分析，我们首次对基于大型语言模型的聊天服务的现有缓存解决方案进行了分析，发现当前的缓存方法未能充分利用语义连接，导致缓存性能低效和额外的标记成本。为了解决这些问题，我们提出了一种新的缓存架构 SCALM，强调语义分析，并识别重要的缓存条目和模式。我们还详细介绍了相应的缓存存储和清除策略的实现。评估结果显示，SCALM 提高了 LLMChat 服务的缓存命中率，并降低了运行成本。与 GPTCache 等其他最先进的解决方案相比，SCALM 的平均缓存命中率相对提高了 63％，标记节省率相对提高了 77％。

May, 2024

用于语义缓存测试输入生成的 LLM

LLMs 被用于测试输入生成以及语义应用，并探讨了语义缓存技术的相关问题和考虑事项。

Jan, 2024

LLM-dCache: 使用 GPT 驱动的本地化数据缓存改善增强工具的 LLM

本研究介绍了 LLM-dCache，它将缓存操作视为可调用的 API 函数，通过与现有的函数调用机制无缝集成，使得大型语言模型能够在管理数据访问时提高效率。在大规模平台上的测试表明，我们的方法在不同的 LLM 和提示技术上将 Copilot 的时间平均提升了 1.24 倍。

Jun, 2024

缓存与提炼：优化大型语言模型的 API 调用

大规模部署生成式 AI 工具常依赖于昂贵的 API 调用以满足用户查询。为了节省这些调用的频率，可以使用一个较小的语言模型 - 学生 - 它会持续训练以适应 LLM 的响应。这个学生逐渐增强独立处理用户请求的能力，这个过程我们称之为神经缓存。神经缓存的关键因素是决定哪些请求应由学生单独处理，哪些请求应重定向到 LLM 以辅助学生学习的策略。在这项研究中，我们关注分类任务，并将一系列经典的基于主动学习的选择标准作为策略进行考虑。我们的实验证明，边界采样和委员会查询在任务和预算方面都带来持续的好处。

Oct, 2023

缓存我如果可以：一种在线的成本感知教师 - 学生框架，用于减少对大型语言模型的调用

通过缓存以前的机器学习模型响应并在中小企业端训练一个本地经济型模型，我们提出了一种降低调用大型语言模型次数的框架，使用两个常见的商业任务（意图识别和情感分析）以及两个经济型学生（k-NN 分类器和多层感知器）来展现实验结果表明，除了稍微降低性能外，还可以获得显著的运营费用节约。

Oct, 2023

FrugalGPT：如何在降低成本和提高性能的同时使用大型语言模型

该研究分析了使用大型语言模型的成本，并提出了三种降低推理成本的策略，包括提示适应，LLM 近似和 LLM 级联。基于这些策略，我们提出了 FrugalGPT，它可以使用不同的组合来降低成本并提高准确性。

May, 2023

大型语言模型是否能理解常见词汇的不常见含义？

通过创新构建一个包含细粒度和跨语言维度的词汇语义理解数据集，本研究揭示了大语言模型在基本词汇意义理解任务上的性能不佳，甚至落后于 16 岁的人类 3.9% 和 22.3% 分别。这突显了其关键不足，并激发了进一步研究和开发更智能的大语言模型的新见解。

May, 2024

大型语言模型的语义压缩

本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价，并提出了二元评价指标：是否精确重构 (ERE) 和语义重构有效性 (SRE)，结果表明 GPT-4 可能有效地压缩和重构文本，并保留原始文本的语义要素。

Apr, 2023

基于 CFLIS 和 MGR-LAU 的用户意图识别和语义缓存优化的查询处理框架

基于云缓存的查询处理被优化，通过将经常访问的数据靠近用户来提高效率。然而，在现有的研究中，忽视了用户意图类型对查询处理效率的影响。因此，本研究利用上下文模糊语义推理系统 (CFLIS) 分析了查询中的信息、导航和事务意图，以增强查询处理。

Jun, 2024

通过嵌入相似性实现高效的提示缓存

通过提示缓存改善大型语言模型的推理效率，专注于通过嵌入相似性预测单轮问答任务的提示缓存的准确性，并提出了基于蒸馏的方法来优化嵌入，实验结果显示我们的模型在缓存效率上优于之前的嵌入模型。

Feb, 2024