May, 2024

LLM 服务的 CAP 原则

TL;DR我们对大型语言模型(LLM)的服务领域进行了调查,以了解成本效益和准确性之间的复杂动态关系,我们发现,在这个领域中,工作以改进服务上下文长度(C)、改进服务准确性(A)和改进服务性能(P)为三个不同但相互冲突的目标进行优化。我们从数据库中的 CAP 原理汲取灵感,提出了一个适用于 LLM 服务的 CAP 原则,该原则表明任何优化最多只能同时提高这三个目标中的两个。我们对现有的工作进行了分类,在这个框架内进行了调查。我们发现,用户感知的度量指标的定义和连续性对于确定目标是否达到至关重要,类似于以往的现实中的 CAP 数据库。我们将 LLM 服务的 CAP 原则作为指导原则,而不是正式定理,以通知设计师在服务模型时的固有和动态的权衡。鉴于服务准确性和性能已经得到广泛研究,本调查重点关注扩展服务上下文长度和应对由此产生的挑战的工作。