学习的最佳努力 LLM 服务

Jan, 2024

Learned Best-Effort LLM Serving

Siddharth Jha, Coleman Hooper, Xiaoxuan Liu, Sehoon Kim, Kurt Keutzer

TL;DR通过深度强化学习，我们提出了一种最佳尽力服务系统，可以根据任务分布和系统负载调整服务质量，与静态服务相比，在不可预测的工作负载上，我们的系统可以以 10 倍以上的客户请求速率维持可用性，96% 以上的峰值性能常常达到 4.1 倍，98% 以上的峰值性能常常达到 2.3 倍，提供了成本高效的服务，适用于各种不同环境，并为应用程序开发人员提供了灵活性以满足他们的具体需求。

Abstract

Many applications must provide low-latency llm service to users or risk unacceptable user experience. However, over-provisioning resources to serve fluctuating request patterns is often prohibitively expensive. In this work, we present a best-effort serving system that employs

llm service deep reinforcement learning task distribution system load static serving

发现论文，激发创造

RouteLLM：利用偏好数据学习路由 LLMs

我们提出了几种高效路由器模型，它们在推理过程中动态选择更强大或更弱的大型语言模型，以实现成本和响应质量的平衡。通过人类偏好数据和数据增强技术，我们开发了一个训练框架来提高性能。在广泛认可的基准测试上的评估结果表明，我们的方法显著降低了成本，在某些情况下超过了 2 倍，同时不影响响应质量。有趣的是，我们的路由器模型还展示了显著的迁移学习能力，在测试时即使更改了强大和弱模型也能保持其性能。这突显了这些路由器为部署大型语言模型提供了成本效益和高性能的解决方案的潜力。

Jun, 2024

队列学习：一种提供服务质量的强化学习方法

本文介绍了一种基于强化学习的服务速率控制器，该控制器通过使用深度确定性策略梯度 (DDPG) 算法作为函数，将服务速率 (行动) 学习为串联服务系统中队列长度 (状态) 的函数，并提供关于系统端到端延迟的概率性保证。

Jan, 2021

混合 LLM：成本高效且质量感知的查询路由

本研究提出一种混合推理方法，结合大型语言模型和小型模型的优势，通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型，以在成本节约和保持质量之间进行动态调整，实验结果表明能够减少高质量模型的调用次数达到 40%，且不影响响应质量。

Apr, 2024

5G 及其后续版本中 eMBB 和 URLLC 共存的智能资源分配：基于深度强化学习的方法

本文研究了两个不同的 5G 服务，即 Ultra-Reliable Low Latency Communications（URLLC）和 enhanced Mobile BroadBand（eMBB）在动态多路复用场景下的资源切片问题。通过优化问题的形式化，提出了一种基于深度强化学习的资源分配算法，以最大化 eMBB 数据速率并满足 URLLC 可靠性约束，避免 URLLC 流量对 eMBB 可靠性造成的瞬时影响。模拟结果显示，该方法能够满足严格的 URLLC 可靠性要求，同时使 eMBB 的可靠性保持在 90％以上。

Mar, 2020

大型语言模型的公平性服务

该论文介绍了基于成本函数的 LLM 服务公平性定义，并提出了一种新颖的调度算法，基于连续批处理机制的 Virtual Token Counter（VTC），通过大量实验验证了 VTC 在确保公平性方面的卓越性能，特别是相对于其他基线方法在各种条件下的不足之处。

Dec, 2023

多接入边缘计算中的服务器放置和工作负载分配强化学习框架

本研究提出了一种使用强化学习解决最小化网络延迟和边缘服务器数量的问题的新 RL 框架，该问题涉及云计算、多接入边缘计算、组合优化问题和马尔可夫决策过程。

Feb, 2022

大语言模型快速分布式推理服务

FastServe 是一种分布式推理服务系统，利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间，并采用 GPU 内存管理机制，与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。

May, 2023

专家路由器：通过提示分类协调高效的语言模型推理

通过引入专家路由器，我们设计了一个可以高效地编排多个专家模型的系统，以增强大规模部署和提供大语言模型的能力，并在高负载场景下实现更高的吞吐率。

Apr, 2024

强化工作负载分配公平性

提出了一种分布式异步强化学习机制，用于提高负载均衡器实现的工作负载分配的公平性，评估并将其与最新的负载平衡算法在模拟器中进行比较，并指出今后的研究方向。

Oct, 2021

边缘计算中无线 LLM 推理的自适应分层切割：基于模型的强化学习方法

通过模型驱动的强化学习方法，该研究在边缘计算环境中最优化部署大型语言模型，提高隐私和计算效率，减少计算成本，并在分散式环境中实现了推理性能和计算负载的平衡。

Jun, 2024