LazyBatching：面向云机器学习推断的考虑 SLA 的批处理系统

Oct, 2020

LazyBatching：面向云机器学习推断的考虑 SLA 的批处理系统

LazyBatching: An SLA-aware Batching System for Cloud Machine Learning Inference

Yujeong Choi, Yunseong Kim, Minsoo Rhu

TL;DR本研究提出了考虑调度和分批的 LazyBatching 技术，采用独立的图节点粒度实现了对动态推理请求的优化，并比 Graph batching 在平均响应时间、吞吐量和 SLA 满足度方面实现了 15 倍、1.5 倍和 5.5 倍的提高。

Abstract

In cloud ml inference systems, batching is an essential technique to increase throughput which helps optimize total-cost-of-ownership. Prior graph →

cloud ml inference batching lazybatching sla-aware batching system dynamic inference request traffic

发现论文，激发创造

MLProxy: 面向无服务器计算平台的 SLA 感知机器学习推理反向代理

本文介绍了 MLProxy，它是一种自适应反向代理，支持在无服务器计算系统上高效地处理机器学习服务工作负载。通过适应性批处理，MLProxy 可以确保满足 SLA 要求的同时优化无服务器成本，为服务器无部署降低了高达 92％的成本，同时将 SLA 违规降低了高达 99％。

Feb, 2022

基于 SMDP 的 GPU 平台高效推断动态分批

本文提出了一种动态批处理策略，该策略可以在 GPU 上实现高效算法和长时间响应之间的平衡，通过将 GPU 推理服务建模为一个批处理服务队列，然后将设计问题转化为半马尔可夫决策过程，通过解决一个相关的离散时间马尔可夫决策过程问题获得最优策略。

Jan, 2023

BCEdge：面向边缘平台的 SLO 感知自适应批处理 DNN 推理服务

提出了一种基于学习的 BCEdge 调度框架，其对边缘平台上多个深度神经网络模型进行自适应分批和并发执行，从而实现高吞吐量和低延迟。通过最大熵深度强化学习优化批大小和并发模型数量，不仅提高了系统利用率，还较完美地满足了质量服务要求 (SLO)。

May, 2023

绿色 AI 批处理 — 基于推理的探索性研究

研究了输入批处理对计算机视觉的五个全面训练的神经网络的能源消耗和响应时间的影响，结果表明批处理对这两个指标都有显著影响。此外，通过过去十年的能源效率和准确性时间线，发现能源消耗上升速度比准确性快得多，质疑了这种发展的必要性。

Jul, 2023

无服务器机器学习模型推理调查

最近在生成人工智能、计算机视觉和自然语言处理方面的进展，已经使得人工智能模型得到了广泛应用。这种广泛应用需要在生产环境中部署这些模型，确保可靠性、最小的停机时间以及优化基础设施的运营成本。大型机器学习模型经常需要 GPU 资源以进行高效推理，以满足服务级别目标。在这些趋势的背景下，人们越来越关注在无服务器架构中托管 AI 模型，并提供推理任务的 GPU 访问。这项调查旨在总结和分类大规模深度学习服务系统中的新兴挑战和优化机会。通过提供新颖的分类法和总结最近的趋势，我们希望这项调查能为大规模深度学习服务系统的新的优化视角提供启示，并激发出创新作品。

Nov, 2023

基于影响的图神经网络小批量处理

通过最大化节点对输出的影响分数来理论建模批处理构建，在推理方面 IBMB 加速了最多 130 倍，并且通过使用自适应优化和正确的训练计划 IBMB 还可以加速训练，每个时期快 18 倍，并且与先前方法相比，每个运行时收敛速度最高可达 17 倍。

Dec, 2022

AntBatchInfer：Kubernetes 集群中的弹性批量推断

AntBatchInfer 是一种针对非专用集群进行优化的弹性离线批量推理框架，通过提供多级容错能力和改进推理效率的方法，稳定高效地执行复杂的单模型和多模型批量推理任务，并在稳定性和效率方面表现优越。

Apr, 2024

利用动态批处理驯服分布式机器学习训练中的资源异质性

本文提出一种动态数据并行训练技术，该技术通过使用比例控制和 PID 控制器的思想，在异构计算集群上均等迭代时间、调整 mini-batch 大小，从而减少模型训练时间。

May, 2023

具有动态计算图的深度学习

介绍了一种称为 “dynamic batching” 的技术，它可以通过组合块来简化动态图形模型的创建，并支持各种不同类型的输入图形的批处理实现。

Feb, 2017

在边缘服务器上调度深度神经网络

本文研究了如何加速深度神经网络在边缘服务器上处理多个客户端的任务，通过批处理的方式和优化调度算法，使用不同的目标函数把多个请求合并，最终提高了处理效率和性能。

Apr, 2023