LLM 服务的 CAP 原则

May, 2024

The CAP Principle for LLM Serving

Pai Zeng, Zhenyu Ning, Jieru Zhao, Weihao Cui, Mengwei Xu...

TL;DR我们对大型语言模型（LLM）的服务领域进行了调查，以了解成本效益和准确性之间的复杂动态关系，我们发现，在这个领域中，工作以改进服务上下文长度（C）、改进服务准确性（A）和改进服务性能（P）为三个不同但相互冲突的目标进行优化。我们从数据库中的 CAP 原理汲取灵感，提出了一个适用于 LLM 服务的 CAP 原则，该原则表明任何优化最多只能同时提高这三个目标中的两个。我们对现有的工作进行了分类，在这个框架内进行了调查。我们发现，用户感知的度量指标的定义和连续性对于确定目标是否达到至关重要，类似于以往的现实中的 CAP 数据库。我们将 LLM 服务的 CAP 原则作为指导原则，而不是正式定理，以通知设计师在服务模型时的固有和动态的权衡。鉴于服务准确性和性能已经得到广泛研究，本调查重点关注扩展服务上下文长度和应对由此产生的挑战的工作。

Abstract

We survey the large language model (LLM) serving area to understand the intricate dynamics between cost-efficiency and accuracy, which is magnified by the growing need for longer →

large language model cost-efficiency contextual understanding serving context length serving accuracy

发现论文，激发创造

朝着帕累托最优吞吐量的小语言模型服务

通过实验和分析，本文旨在对小型语言模型的推理性能和能量效率进行基准测试，并得出结论说明模型复制可以有效提高服务小型语言模型时的资源利用率。

Apr, 2024

朝向高效的生成式大型语言模型服务：从算法到系统的调研

人工智能中生成式大型语言模型的高效部署方法的综述

Dec, 2023

面向优化的大型语言模型

评估 LLM 在各种任务和数据大小上的优化能力，并引入了三个不同的指标来全面评估任务性能。通过应用这些指标，我们观察到 LLM 在处理小规模样本时表现出很强的优化能力，但其性能受到数据大小和值等因素的显著影响，强调了对 LLM 的优化任务领域进行进一步研究的重要性。

Oct, 2023

CPopQA: 通过 LLMs 对文化概念的热度进行排名

该研究通过引入一种新的少样本问答任务（CPopQA），评估了大型语言模型（LLMs）对长尾文化概念（如假期）的统计排名能力，特别关注这些概念在美国和英国的受欢迎程度，并发现 GPT-3.5 在跨大洲识别地理文化接近性方面表现出卓越性能。

Nov, 2023

概念一致性揭示大型语言模型的内部机理

该论文提出了一种概念一致性测量方法，通过从知识库中提取背景知识并尝试预测模型对锚定查询的响应，来测量 LLM 对相关概念的理解程度。研究表明，目前的 LLM 在常识推理方面存在显著差异，并能够向构建具有理解力的人工智能迈进一步。

Sep, 2022

探索和基准测试大型语言模型的规划能力

提高大型语言模型的规划能力，研究领域包括基于上下文学习、微调，以及在未知领域的性能评估。

Jun, 2024

度量感知的 LLM 推理

大语言模型 (LLMs) 在一系列自然语言处理任务上取得了出色的结果，但当前的推理策略对于许多任务和评估指标来说并不是最优的。为此，本研究提出了基于度量感知的 LLM 推理方法，通过决策理论在推理过程中针对特定指标进行优化，我们在学术基准和公开模型上取得了改进。

Mar, 2024

OptLLM: 大型语言模型的最佳查询分配

我们提出了一个针对大型语言模型的成本效益查询分配问题的框架，名为 OptLLM，通过使用多标签分类模型进行性能预测，生成一系列优化解决方案，旨在满足用户的预算限制和性能偏好，包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验，包括文本分类、问答、情感分析、推理和日志解析，实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性，相比其他多目标优化算法，OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。

May, 2024

通过组合拓展能力的 LLM 增强 LLMs

通过提出 CALM，即 Composition to Augment Language Models，我们研究了现有基础模型与特定模型的有效和实用组合，以赋予其新的能力。CALM 通过引入模型之间的交叉关注来组合它们的表示，并实现新的功能。在实验证明，将 PaLM2-S 与在资源稀缺语言上训练的较小模型相结合，可以在英语翻译和低资源语言的算术推理等任务中带来最高 13％的绝对改进；同样，当 PaLM2-S 与特定于代码的模型相结合时，在代码生成和解释任务上与完全微调的模型相比，性能提升了 40％。

Jan, 2024

分析大型语言模型在课堂讨论评估中的应用

借助大型语言模型（LLMs）等新的自然语言处理技术，自动评估课堂讨论质量变得越来越可行。本文研究了两种 LLMs 的评估性能如何与任务制定、上下文长度和少样本示例等三个可能影响性能的因素相互作用。我们还探讨了两种 LLMs 的计算效率和预测一致性。结果表明，前述三个因素确实影响了被测试 LLMs 的性能，并且预测一致性与性能之间存在关系。我们建议采用以 LLMs 为基础的评估方法，在预测性能、计算效率和一致性方面取得良好平衡。

Jun, 2024