Jan, 2024

学习的最佳努力 LLM 服务

TL;DR通过深度强化学习,我们提出了一种最佳尽力服务系统,可以根据任务分布和系统负载调整服务质量,与静态服务相比,在不可预测的工作负载上,我们的系统可以以 10 倍以上的客户请求速率维持可用性,96% 以上的峰值性能常常达到 4.1 倍,98% 以上的峰值性能常常达到 2.3 倍,提供了成本高效的服务,适用于各种不同环境,并为应用程序开发人员提供了灵活性以满足他们的具体需求。