Singularity: 基于地球规模的 AI 工作负载预先调度和弹性调度

Feb, 2022

Singularity: 基于地球规模的 AI 工作负载预先调度和弹性调度

Singularity: Planet-Scale, Preemptive and Elastic Scheduling of AI Workloads

Dharma Shukla, Muthian Sivathanu, Srinidhi Viswanatha, Bhargav Gulavani, Rimma Nehme...

TL;DRSingularity 是一种基于新颖的负载感知调度器的调度服务，支持对分布式的深度学习训练和推理负载，在全球范围内进行高效且可靠的执行，并采用了一种具有透明性的机制，可以自动地弹性地调整和重新规划任务的执行位置以及加速。

Abstract

Lowering costs by driving high utilization across deep learning workloads is a crucial lever for cloud providers. We present singularity, Microsoft's globally distributed →

singularity deep learning scheduling service preemptable elastic

发现论文，激发创造

规模化和轻松化的深度学习

SINGA 是一个可扩展、易用的分布式深度学习平台，具有基于深度学习模型的通用层抽象的直观编程模型和具体优化技术，可在 GPU 和 CPU 上运行，在实际的多媒体应用中的应用表现出了良好的可用性和可扩展性。

Mar, 2016

加强基于深度学习和强化学习技术的 Kubernetes 自动调度以优化大规模云计算

基于深度学习和强化学习的大规模云计算系统自动任务调度方案的研究和验证。

Feb, 2024

PREMA：一种用于可抢占神经处理单元的预测性多任务调度算法

本篇研究提出了一种利用可抢占神经处理单元（NPU）和预测性多任务调度器满足高优先级推理的延迟需求，同时保持高吞吐率的方法，通过评估可使 NPU 可抢占的机制和利用它们实现调度目标的策略，表明采用可抢占 NPU 多任务处理技术可以实现平均 7.8 倍、1.4 倍和 4.8 倍的延迟、吞吐量和 SLA 满意度的提高。

Sep, 2019

PARIS 和 ELSA：一种用于可重构多 GPU 推理服务器的弹性调度算法

本研究探讨了 NVIDIA 最新发布的 Ampere GPU 体系结构在云机器学习推理系统中的应用，并提出了一种适用于异构 GPU 服务器部署的复杂划分算法和弹性调度算法，实现低延迟和高 GPU 利用率的平衡。

Feb, 2022

网络敏感深度学习的 GPU 集群调度

我们提出了一种新颖的 GPU 集群调度器，用于分布式深度学习工作负载，基于 DDL 作业对预期通信网络延迟的敏感性实现了基于邻近性的资源整合，通过经典的延迟调度算法来实现作业的放置和整合，使用数据驱动的 DDL 集群模拟平台进行了大规模实验，证明了我们设计的优势。在拥挤的网络条件下，与现有的基于整合的调度方法相比，我们的调度器可以提供多达 69% 的端到端完成时间的改进，同时将平均作业完成时间降低多达 83%，并将通信开销最小化多达 98%。

Jan, 2024

GPU 数据中心中的深度学习工作负载调度：分类、挑战和前景

本文调查了现有的深度学习模型调度器设计，旨在实现更高的资源利用率和更低的运营成本。

May, 2022

无服务器机器学习模型推理调查

最近在生成人工智能、计算机视觉和自然语言处理方面的进展，已经使得人工智能模型得到了广泛应用。这种广泛应用需要在生产环境中部署这些模型，确保可靠性、最小的停机时间以及优化基础设施的运营成本。大型机器学习模型经常需要 GPU 资源以进行高效推理，以满足服务级别目标。在这些趋势的背景下，人们越来越关注在无服务器架构中托管 AI 模型，并提供推理任务的 GPU 访问。这项调查旨在总结和分类大规模深度学习服务系统中的新兴挑战和优化机会。通过提供新颖的分类法和总结最近的趋势，我们希望这项调查能为大规模深度学习服务系统的新的优化视角提供启示，并激发出创新作品。

Nov, 2023

交响乐：使用集中协调优化的模型服务

Symphony 是一个集中式调度系统，用于在 GPU 集群上协调深度神经网络模型推断。它通过使用非工作保持调度算法实现高批量效率，并能够自动扩展。Symphony 利用基于计算和内存需求的模型将模型分配给子集群的大规模算法，经过广泛的实验，证明了其比之前的系统具有高达 4.7 倍的吞吐量。

Aug, 2023

KubeEdge-Sedna v0.3：面向下一代自动定制化 AI 工程方案

基于学术界的终身学习方法，我们首次正式定义了边缘 - 云协作终身学习问题，并发布了业界首个开源边缘 - 云协作终身学习。该方法通过多任务迁移学习、增量处理、云侧知识库记忆和边缘 - 云协作架构实现了数据异构性适应、具有小样本更加智能的系统以及边缘数据安全合规和离线自主等特性，从根本上解决了边缘 - 云协作机器学习面临的挑战。

Mar, 2023

基于多智能体强化学习的地理分布数据中心可持续负载调度

本研究提出一种基于多智能体强化学习和演员 - 评论家方法的算法，通过与真实工作负载模式、能源价格和碳强度相互作用的云系统学习最优的协同调度策略，从而最大化 GPU 利用率、降低运营成本和减少碳排放。与其他算法相比，我们的方法提高了系统效用，最高可达 28.6％。

Apr, 2023