微服务效率分析研究
基于预测模型的最优调度决策在服务系统中的关键是理解预测误差对其他作业的延迟产生的外部性对拥塞的影响。我们在应用中考虑了预测模型与人类服务器交互的情况(例如内容审查),设计了一个基于指标的策略,以近乎最优的方式结合了预测的类别信息,通过对重负载下拥塞成本的特征化来指导预测模型的设计,并针对基于人工智能的任务划分设计了一种新颖的排队系统。我们以实际在线评论为基础,通过微调大型语言模型构建鉴别有毒性的分类器,展示了我们的框架。
Jun, 2024
基于多模型队列管理框架 QLM,通过模型交换、请求驱逐、GPU-CPU 状态交换、负载均衡和温启动模型等方法,最大化达到 SLO 并提高吞吐量,有效解决了大语言模型的延迟挑战。
Jun, 2024
通过分析机器学习模型在 ML 服务中的架构设计决策,识别与之相关的组件,与相关的技术栈,以及文献中研究的质量特征,包括能源效率,此研究旨在为研究者和从业者在提供模型时做出有环保意识的架构设计决策提供参考。
Feb, 2024
该文研究了在服务时间不确定且使用机器学习算法进行预测时的作业调度,提出了几个策略的性能公式,并引入了 “错误预测的代价” 框架来度量使用预测信息的成本。
Feb, 2019
该研究基于分布式服务模型,提出了一种资源受限的 “拉模式” 调度策略,该策略考虑了调度器的内存限制和服务器与调度器之间通信的速率两个参数,并证明了当内存比特数随服务器数量 logarithmically 增长且服务器通信速度至少为 lambda n 时,期望排队延迟趋向于零;当内存比特数只 logarithmically 增长且服务器通信速度与服务器数量成比例时,期望排队延迟有一个闭合表达式;并证明了在资源受限区域中存在有趣的相变现象,其中当我们的策略仅使用线性消息速率 alpha n 时,得到的渐近延迟是上界,而当不使用任何消息(alpha=0)或使用流行的 power-of-d-choices 时,得到的 delay 随着 lambda 的增大而增加。
Sep, 2017
针对机器学习在实时决策中的应用,提出需要一种新的分布式执行框架来实现毫秒延迟、高吞吐、任务图的自适应构建以及异构内核的执行等一系列要求,并提出了一个候选方案,其架构已经获得了 63 倍的性能提升。
Mar, 2017
最近在生成人工智能、计算机视觉和自然语言处理方面的进展,已经使得人工智能模型得到了广泛应用。这种广泛应用需要在生产环境中部署这些模型,确保可靠性、最小的停机时间以及优化基础设施的运营成本。大型机器学习模型经常需要 GPU 资源以进行高效推理,以满足服务级别目标。在这些趋势的背景下,人们越来越关注在无服务器架构中托管 AI 模型,并提供推理任务的 GPU 访问。这项调查旨在总结和分类大规模深度学习服务系统中的新兴挑战和优化机会。通过提供新颖的分类法和总结最近的趋势,我们希望这项调查能为大规模深度学习服务系统的新的优化视角提供启示,并激发出创新作品。
Nov, 2023
基于机器学习的性能模型在构建关键的作业调度和应用程序优化决策中越来越被使用。我们开发了持续学习性能模型,考虑到数据分布漂移,减轻灾难性遗忘,并提高泛化能力。我们的最佳模型能够保持准确性,无论系统变化引起的新数据分布,同时相比于朴素方法,在整个数据序列的预测准确度上提升了 2 倍。
Oct, 2023