学习的最佳努力 LLM 服务
我们提出了几种高效路由器模型,它们在推理过程中动态选择更强大或更弱的大型语言模型,以实现成本和响应质量的平衡。通过人类偏好数据和数据增强技术,我们开发了一个训练框架来提高性能。在广泛认可的基准测试上的评估结果表明,我们的方法显著降低了成本,在某些情况下超过了 2 倍,同时不影响响应质量。有趣的是,我们的路由器模型还展示了显著的迁移学习能力,在测试时即使更改了强大和弱模型也能保持其性能。这突显了这些路由器为部署大型语言模型提供了成本效益和高性能的解决方案的潜力。
Jun, 2024
本文介绍了一种基于强化学习的服务速率控制器,该控制器通过使用深度确定性策略梯度 (DDPG) 算法作为函数,将服务速率 (行动) 学习为串联服务系统中队列长度 (状态) 的函数,并提供关于系统端到端延迟的概率性保证。
Jan, 2021
本研究提出一种混合推理方法,结合大型语言模型和小型模型的优势,通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型,以在成本节约和保持质量之间进行动态调整,实验结果表明能够减少高质量模型的调用次数达到 40%,且不影响响应质量。
Apr, 2024
本文研究了两个不同的 5G 服务,即 Ultra-Reliable Low Latency Communications(URLLC)和 enhanced Mobile BroadBand(eMBB)在动态多路复用场景下的资源切片问题。通过优化问题的形式化,提出了一种基于深度强化学习的资源分配算法,以最大化 eMBB 数据速率并满足 URLLC 可靠性约束,避免 URLLC 流量对 eMBB 可靠性造成的瞬时影响。模拟结果显示,该方法能够满足严格的 URLLC 可靠性要求,同时使 eMBB 的可靠性保持在 90%以上。
Mar, 2020
该论文介绍了基于成本函数的 LLM 服务公平性定义,并提出了一种新颖的调度算法,基于连续批处理机制的 Virtual Token Counter(VTC),通过大量实验验证了 VTC 在确保公平性方面的卓越性能,特别是相对于其他基线方法在各种条件下的不足之处。
Dec, 2023
本研究提出了一种使用强化学习解决最小化网络延迟和边缘服务器数量的问题的新 RL 框架,该问题涉及云计算、多接入边缘计算、组合优化问题和马尔可夫决策过程。
Feb, 2022
FastServe 是一种分布式推理服务系统,利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间,并采用 GPU 内存管理机制,与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。
May, 2023
通过引入专家路由器,我们设计了一个可以高效地编排多个专家模型的系统,以增强大规模部署和提供大语言模型的能力,并在高负载场景下实现更高的吞吐率。
Apr, 2024
通过模型驱动的强化学习方法,该研究在边缘计算环境中最优化部署大型语言模型,提高隐私和计算效率,减少计算成本,并在分散式环境中实现了推理性能和计算负载的平衡。
Jun, 2024