FIKIT:基于优先级的实时 GPU 多任务调度和内核识别
该论文提出了一种基于 VLIW 架构的 JIT 编译器,在满足延迟 SLOs 要求的同时,通过运行时合并和重排执行内核来提高 GPU 的利用效率,并通过比较空间复用和时间复用的低效性,说明了通过空间合并可以达到可观的 7.7x 的机会差距。
Jan, 2019
提出了 Miriam,一种用于多个边缘 GPU 上的深度神经网络任务协调的计划,通过弹性内核生成器和运行时动态内核协调器,可以实现混合关键性 DNN 推理,并且在关键任务上只产生不到 10%的延迟开销,相比现有技术基准,系统吞吐量可提高 92%。
Jul, 2023
本研究探讨了 NVIDIA 最新发布的 Ampere GPU 体系结构在云机器学习推理系统中的应用,并提出了一种适用于异构 GPU 服务器部署的复杂划分算法和弹性调度算法,实现低延迟和高 GPU 利用率的平衡。
Feb, 2022
我们提出了一种新颖的 GPU 集群调度器,用于分布式深度学习工作负载,基于 DDL 作业对预期通信网络延迟的敏感性实现了基于邻近性的资源整合,通过经典的延迟调度算法来实现作业的放置和整合,使用数据驱动的 DDL 集群模拟平台进行了大规模实验,证明了我们设计的优势。在拥挤的网络条件下,与现有的基于整合的调度方法相比,我们的调度器可以提供多达 69% 的端到端完成时间的改进,同时将平均作业完成时间降低多达 83%,并将通信开销最小化多达 98%。
Jan, 2024
本篇研究提出了一种利用可抢占神经处理单元(NPU)和预测性多任务调度器满足高优先级推理的延迟需求,同时保持高吞吐率的方法,通过评估可使 NPU 可抢占的机制和利用它们实现调度目标的策略,表明采用可抢占 NPU 多任务处理技术可以实现平均 7.8 倍、1.4 倍和 4.8 倍的延迟、吞吐量和 SLA 满意度的提高。
Sep, 2019
本文讨论了在 ZHAW 教授机器人应用编程课程的经验,介绍了使用 Kubernetes(k8s)集群和真实的、异质的机器人硬件相结合的方法,讨论了我们的解决方案在学生无缝模拟体验方面的主要优势以及网络和共享 GPU 支持深度学习工作负载所遇到的主要缺点。提出了未来课程版本避免这些缺点的替代方案,并建议更云原生的方法来部署多个机器人应用程序在 k8s 集群上。
Oct, 2022
本文介绍了一种深度学习执行引擎 Nimble,采用 ahead-of-time(AoT)调度技术,可以以尽可能小的调度开销运行 GPU 任务。与 PyTorch, TensorRT 和 TVM 相比,Nimble 在加速推断和训练方面表现出较好的性能。
Dec, 2020
本研究提出了一个新颖的多工作联邦学习框架,通过智能调度方法实现了分散数据的并行训练过程,实验证明相比基线方法,其训练时间更快(最高可达 12.73 倍)且准确率更高(最高 46.4%)。
Nov, 2022
通过自动优化搜索空间和随机搜索方法,我们实现了 GPU 原生指令优化,从而进一步提高了 CUDA 核心的吞吐量,并通过 1000 万个测试样本对优化后的指令进行了测试。
Mar, 2024