缓存与提炼：优化大型语言模型的 API 调用

Oct, 2023

缓存与提炼：优化大型语言模型的 API 调用

Cache & Distil: Optimising API Calls to Large Language Models

Guillem Ramírez, Matthias Lindemann, Alexandra Birch, Ivan Titov

TL;DR大规模部署生成式 AI 工具常依赖于昂贵的 API 调用以满足用户查询。为了节省这些调用的频率，可以使用一个较小的语言模型 - 学生 - 它会持续训练以适应 LLM 的响应。这个学生逐渐增强独立处理用户请求的能力，这个过程我们称之为神经缓存。神经缓存的关键因素是决定哪些请求应由学生单独处理，哪些请求应重定向到 LLM 以辅助学生学习的策略。在这项研究中，我们关注分类任务，并将一系列经典的基于主动学习的选择标准作为策略进行考虑。我们的实验证明，边界采样和委员会查询在任务和预算方面都带来持续的好处。

Abstract

Large-scale deployment of generative ai tools often depends on costly API calls to a large language model (LLM) to fulfil user queries. To curtail the frequency of these calls, one can employ a smaller language m

generative ai tools large language model neural caching classification tasks active learning-based selection criteria

发现论文，激发创造

缓存我如果可以：一种在线的成本感知教师 - 学生框架，用于减少对大型语言模型的调用

通过缓存以前的机器学习模型响应并在中小企业端训练一个本地经济型模型，我们提出了一种降低调用大型语言模型次数的框架，使用两个常见的商业任务（意图识别和情感分析）以及两个经济型学生（k-NN 分类器和多层感知器）来展现实验结果表明，除了稍微降低性能外，还可以获得显著的运营费用节约。

Oct, 2023

LLM 教育中的知识蒸馏

本研究提出了一种方法，将大型语言模型（LLMs）的知识提炼为一个更小、更高效且准确的神经网络，以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型，作为教师模型，通过专门设计的损失函数来学习 LLM 的输出概率，确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试，我们将性能与原始神经网络（NN）模型进行了比较，结果显示对于 7T 数据集，NN 模型和提炼的学生模型的准确率与教师模型相当；然而，其他数据集显示 NN 模型的准确率显著较低（平均 28%），然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外，学生模型的参数大小为 0.1M 至 0.02M，相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。

Dec, 2023

朝向高效的生成式大型语言模型服务：从算法到系统的调研

人工智能中生成式大型语言模型的高效部署方法的综述

Dec, 2023

基于不确定性的两层选择对大型语言模型的优化调用

通过使用仅基于小型 LLM 生成的不确定性作为决策准则，我们提出了一种简化的解决方案，该解决方案在 25 个实验设置中优于现有方法，实现了成本和性能的最佳平衡。

May, 2024

利用大型语言模型的知识蒸馏进行网络内容过滤

本研究利用大型语言模型进行 URL 分类，并通过知识蒸馏技术生成了精简版学生模型，使得模型在以 URL 为基础的网页分类任务中准确度提高了 9%，比此前状态 - of-the-art 的方法表现更佳，精简版学生模型使得模型可用于大规模 URL 的内联扫描，并且所需的手工标记训练数据量较之前的方法减少了 3 个数量级。

May, 2023

LLM-dCache: 使用 GPT 驱动的本地化数据缓存改善增强工具的 LLM

本研究介绍了 LLM-dCache，它将缓存操作视为可调用的 API 函数，通过与现有的函数调用机制无缝集成，使得大型语言模型能够在管理数据访问时提高效率。在大规模平台上的测试表明，我们的方法在不同的 LLM 和提示技术上将 Copilot 的时间平均提升了 1.24 倍。

Jun, 2024

用于语义缓存测试输入生成的 LLM

LLMs 被用于测试输入生成以及语义应用，并探讨了语义缓存技术的相关问题和考虑事项。

Jan, 2024

混合 LLM：成本高效且质量感知的查询路由

本研究提出一种混合推理方法，结合大型语言模型和小型模型的优势，通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型，以在成本节约和保持质量之间进行动态调整，实验结果表明能够减少高质量模型的调用次数达到 40%，且不影响响应质量。

Apr, 2024

大语言模型的隐私感知语义缓存

MeanCache 是一种用于 LLM 的语义缓存，通过识别语义相似的查询来确定缓存是否命中，降低了计算成本，服务提供者负载和环境影响，同时使用联邦学习在各个用户之间进行分布式训练查询相似性模型，不违反隐私。与 GPTCache 相比，MeanCache 在语义缓存命中与未命中的决策中取得了大约 17% 的 F - 得分增加和 20% 的精确度增加，并且在减少存储需求方面有了 83% 的提升和在语义缓存命中与未命中的决策加速方面有了 11% 的提升，仍然超过了 GPTCache。

Mar, 2024

基于需求定制的 LMLs 服务

通过引入层级分布式的大型语言模型（LLM）架构，提高 LLM 在异构计算平台上的可访问性和可部署性，实现按需访问和定制化服务，并在用户与应用需求之间取得最佳权衡，推动人工智能技术的进步。

Jan, 2024