微服务效率分析研究

Mar, 2023

Research on Efficiency Analysis of Microservices

Abel C. H. Chen

TL;DR本研究提出了一种基于排队模型的效率分析框架，用于分析将传统的大型服务进行分解成 n 个微服务后的效率差异，并考虑了不同的服务时间分布和最坏和最好情况下的系统效率。实验结果表明，将大型服务分解成多个微服务可以提高系统效率，并证明当计算时间均匀分布在多个微服务之间时，可获得最佳的改进效果。

Abstract

With the maturity of web services, containers, and cloud computing technologies, large services in traditional systems (e.g. the computation services of machine learning and artificial intelligence) are gradually being broken down into many microservices to increase service reusability

microservices efficiency analysis queuing models service time distributions computation services

发现论文，激发创造

朝向高效的生成式大型语言模型服务：从算法到系统的调研

人工智能中生成式大型语言模型的高效部署方法的综述

Dec, 2023

基于人工智能的排队系统的设计和调度

基于预测模型的最优调度决策在服务系统中的关键是理解预测误差对其他作业的延迟产生的外部性对拥塞的影响。我们在应用中考虑了预测模型与人类服务器交互的情况（例如内容审查），设计了一个基于指标的策略，以近乎最优的方式结合了预测的类别信息，通过对重负载下拥塞成本的特征化来指导预测模型的设计，并针对基于人工智能的任务划分设计了一种新颖的排队系统。我们以实际在线评论为基础，通过微调大型语言模型构建鉴别有毒性的分类器，展示了我们的框架。

Jun, 2024

只需一个队列：解决大型语言模型服务中的头部阻塞问题

基于多模型队列管理框架 QLM，通过模型交换、请求驱逐、GPU-CPU 状态交换、负载均衡和温启动模型等方法，最大化达到 SLO 并提高吞吐量，有效解决了大语言模型的延迟挑战。

Jun, 2024

实现绿色机器学习服务的架构设计决策鉴别

通过分析机器学习模型在 ML 服务中的架构设计决策，识别与之相关的组件，与相关的技术栈，以及文献中研究的质量特征，包括能源效率，此研究旨在为研究者和从业者在提供模型时做出有环保意识的架构设计决策提供参考。

Feb, 2024

基于预测的调度与错误预测的代价

该文研究了在服务时间不确定且使用机器学习算法进行预测时的作业调度，提出了几个策略的性能公式，并引入了 “错误预测的代价” 框架来度量使用预测信息的成本。

Feb, 2019

分布式服务系统中的延迟、内存和消息传递权衡

该研究基于分布式服务模型，提出了一种资源受限的 “拉模式” 调度策略，该策略考虑了调度器的内存限制和服务器与调度器之间通信的速率两个参数，并证明了当内存比特数随服务器数量 logarithmically 增长且服务器通信速度至少为 lambda n 时，期望排队延迟趋向于零；当内存比特数只 logarithmically 增长且服务器通信速度与服务器数量成比例时，期望排队延迟有一个闭合表达式；并证明了在资源受限区域中存在有趣的相变现象，其中当我们的策略仅使用线性消息速率 alpha n 时，得到的渐近延迟是上界，而当不使用任何消息（alpha=0）或使用流行的 power-of-d-choices 时，得到的 delay 随着 lambda 的增大而增加。

Sep, 2017

朝着帕累托最优吞吐量的小语言模型服务

通过实验和分析，本文旨在对小型语言模型的推理性能和能量效率进行基准测试，并得出结论说明模型复制可以有效提高服务小型语言模型时的资源利用率。

Apr, 2024

实时机器学习：遗失的部分

针对机器学习在实时决策中的应用，提出需要一种新的分布式执行框架来实现毫秒延迟、高吞吐、任务图的自适应构建以及异构内核的执行等一系列要求，并提出了一个候选方案，其架构已经获得了 63 倍的性能提升。

Mar, 2017

无服务器机器学习模型推理调查

最近在生成人工智能、计算机视觉和自然语言处理方面的进展，已经使得人工智能模型得到了广泛应用。这种广泛应用需要在生产环境中部署这些模型，确保可靠性、最小的停机时间以及优化基础设施的运营成本。大型机器学习模型经常需要 GPU 资源以进行高效推理，以满足服务级别目标。在这些趋势的背景下，人们越来越关注在无服务器架构中托管 AI 模型，并提供推理任务的 GPU 访问。这项调查旨在总结和分类大规模深度学习服务系统中的新兴挑战和优化机会。通过提供新颖的分类法和总结最近的趋势，我们希望这项调查能为大规模深度学习服务系统的新的优化视角提供启示，并激发出创新作品。

Nov, 2023

朝向持续学习的应用性能模型

基于机器学习的性能模型在构建关键的作业调度和应用程序优化决策中越来越被使用。我们开发了持续学习性能模型，考虑到数据分布漂移，减轻灾难性遗忘，并提高泛化能力。我们的最佳模型能够保持准确性，无论系统变化引起的新数据分布，同时相比于朴素方法，在整个数据序列的预测准确度上提升了 2 倍。

Oct, 2023