Singularity: 基于地球规模的 AI 工作负载预先调度和弹性调度
SINGA 是一个可扩展、易用的分布式深度学习平台,具有基于深度学习模型的通用层抽象的直观编程模型和具体优化技术,可在 GPU 和 CPU 上运行,在实际的多媒体应用中的应用表现出了良好的可用性和可扩展性。
Mar, 2016
本篇研究提出了一种利用可抢占神经处理单元(NPU)和预测性多任务调度器满足高优先级推理的延迟需求,同时保持高吞吐率的方法,通过评估可使 NPU 可抢占的机制和利用它们实现调度目标的策略,表明采用可抢占 NPU 多任务处理技术可以实现平均 7.8 倍、1.4 倍和 4.8 倍的延迟、吞吐量和 SLA 满意度的提高。
Sep, 2019
本研究探讨了 NVIDIA 最新发布的 Ampere GPU 体系结构在云机器学习推理系统中的应用,并提出了一种适用于异构 GPU 服务器部署的复杂划分算法和弹性调度算法,实现低延迟和高 GPU 利用率的平衡。
Feb, 2022
我们提出了一种新颖的 GPU 集群调度器,用于分布式深度学习工作负载,基于 DDL 作业对预期通信网络延迟的敏感性实现了基于邻近性的资源整合,通过经典的延迟调度算法来实现作业的放置和整合,使用数据驱动的 DDL 集群模拟平台进行了大规模实验,证明了我们设计的优势。在拥挤的网络条件下,与现有的基于整合的调度方法相比,我们的调度器可以提供多达 69% 的端到端完成时间的改进,同时将平均作业完成时间降低多达 83%,并将通信开销最小化多达 98%。
Jan, 2024
最近在生成人工智能、计算机视觉和自然语言处理方面的进展,已经使得人工智能模型得到了广泛应用。这种广泛应用需要在生产环境中部署这些模型,确保可靠性、最小的停机时间以及优化基础设施的运营成本。大型机器学习模型经常需要 GPU 资源以进行高效推理,以满足服务级别目标。在这些趋势的背景下,人们越来越关注在无服务器架构中托管 AI 模型,并提供推理任务的 GPU 访问。这项调查旨在总结和分类大规模深度学习服务系统中的新兴挑战和优化机会。通过提供新颖的分类法和总结最近的趋势,我们希望这项调查能为大规模深度学习服务系统的新的优化视角提供启示,并激发出创新作品。
Nov, 2023
Symphony 是一个集中式调度系统,用于在 GPU 集群上协调深度神经网络模型推断。它通过使用非工作保持调度算法实现高批量效率,并能够自动扩展。Symphony 利用基于计算和内存需求的模型将模型分配给子集群的大规模算法,经过广泛的实验,证明了其比之前的系统具有高达 4.7 倍的吞吐量。
Aug, 2023
基于学术界的终身学习方法,我们首次正式定义了边缘 - 云协作终身学习问题,并发布了业界首个开源边缘 - 云协作终身学习。该方法通过多任务迁移学习、增量处理、云侧知识库记忆和边缘 - 云协作架构实现了数据异构性适应、具有小样本更加智能的系统以及边缘数据安全合规和离线自主等特性,从根本上解决了边缘 - 云协作机器学习面临的挑战。
Mar, 2023
本研究提出一种基于多智能体强化学习和演员 - 评论家方法的算法,通过与真实工作负载模式、能源价格和碳强度相互作用的云系统学习最优的协同调度策略,从而最大化 GPU 利用率、降低运营成本和减少碳排放。与其他算法相比,我们的方法提高了系统效用,最高可达 28.6%。
Apr, 2023