FIKIT：基于优先级的实时 GPU 多任务调度和内核识别

Nov, 2023

FIKIT：基于优先级的实时 GPU 多任务调度和内核识别

FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel Identification

Wenqing Wu

TL;DRFIKIT 是一种新颖的基于内核级调度策略，充分利用 GPU 设备的运行时间并降低其对云服务的影响，通过任务级别的优先级信息、细粒度内核识别和内核测量，提高高优先级任务的执行速度，相对于 GPU 共享模式下的 JCT 加速 1.33 至 14.87 倍，且多半数情况下加速超过 3.5 倍。

Abstract

Highly parallelized workloads like machine learning training, inferences and general HPC tasks are greatly accelerated using GPU devices. In a cloud computing cluster, serving a GPU's computation power through multi-tasks sharing is highly demanded since there are always more task requests than the number of GPU available. Existing →

gpu sharing kernel-level optimization fikit cloud services ml models

发现论文，激发创造

用于 GPU 推断的 OoO VLIW JIT 编译器

该论文提出了一种基于 VLIW 架构的 JIT 编译器，在满足延迟 SLOs 要求的同时，通过运行时合并和重排执行内核来提高 GPU 的利用效率，并通过比较空间复用和时间复用的低效性，说明了通过空间合并可以达到可观的 7.7x 的机会差距。

Jan, 2019

Miriam：在边缘 GPU 上利用弹性核心进行实时多 DNN 推理

提出了 Miriam，一种用于多个边缘 GPU 上的深度神经网络任务协调的计划，通过弹性内核生成器和运行时动态内核协调器，可以实现混合关键性 DNN 推理，并且在关键任务上只产生不到 10％的延迟开销，相比现有技术基准，系统吞吐量可提高 92％。

Jul, 2023

PARIS 和 ELSA：一种用于可重构多 GPU 推理服务器的弹性调度算法

本研究探讨了 NVIDIA 最新发布的 Ampere GPU 体系结构在云机器学习推理系统中的应用，并提出了一种适用于异构 GPU 服务器部署的复杂划分算法和弹性调度算法，实现低延迟和高 GPU 利用率的平衡。

Feb, 2022

网络敏感深度学习的 GPU 集群调度

我们提出了一种新颖的 GPU 集群调度器，用于分布式深度学习工作负载，基于 DDL 作业对预期通信网络延迟的敏感性实现了基于邻近性的资源整合，通过经典的延迟调度算法来实现作业的放置和整合，使用数据驱动的 DDL 集群模拟平台进行了大规模实验，证明了我们设计的优势。在拥挤的网络条件下，与现有的基于整合的调度方法相比，我们的调度器可以提供多达 69% 的端到端完成时间的改进，同时将平均作业完成时间降低多达 83%，并将通信开销最小化多达 98%。

Jan, 2024

PREMA：一种用于可抢占神经处理单元的预测性多任务调度算法

本篇研究提出了一种利用可抢占神经处理单元（NPU）和预测性多任务调度器满足高优先级推理的延迟需求，同时保持高吞吐率的方法，通过评估可使 NPU 可抢占的机制和利用它们实现调度目标的策略，表明采用可抢占 NPU 多任务处理技术可以实现平均 7.8 倍、1.4 倍和 4.8 倍的延迟、吞吐量和 SLA 满意度的提高。

Sep, 2019

在 Kubernetes 上使用 GPU 共享构建云原生机器人应用

本文讨论了在 ZHAW 教授机器人应用编程课程的经验，介绍了使用 Kubernetes（k8s）集群和真实的、异质的机器人硬件相结合的方法，讨论了我们的解决方案在学生无缝模拟体验方面的主要优势以及网络和共享 GPU 支持深度学习工作负载所遇到的主要缺点。提出了未来课程版本避免这些缺点的替代方案，并建议更云原生的方法来部署多个机器人应用程序在 k8s 集群上。

Oct, 2022

GPU 数据中心中的深度学习工作负载调度：分类、挑战和前景

本文调查了现有的深度学习模型调度器设计，旨在实现更高的资源利用率和更低的运营成本。

May, 2022

Nimble: 适用于深度学习的轻量级和并行 GPU 任务调度

本文介绍了一种深度学习执行引擎 Nimble，采用 ahead-of-time（AoT）调度技术，可以以尽可能小的调度开销运行 GPU 任务。与 PyTorch, TensorRT 和 TVM 相比，Nimble 在加速推断和训练方面表现出较好的性能。

Dec, 2020

跨设备联邦学习的多任务智能调度

本研究提出了一个新颖的多工作联邦学习框架，通过智能调度方法实现了分散数据的并行训练过程，实验证明相比基线方法，其训练时间更快（最高可达 12.73 倍）且准确率更高（最高 46.4%）。

Nov, 2022

SIP: 通过随机指令摄动自动调优 GPU 本地调度

通过自动优化搜索空间和随机搜索方法，我们实现了 GPU 原生指令优化，从而进一步提高了 CUDA 核心的吞吐量，并通过 1000 万个测试样本对优化后的指令进行了测试。

Mar, 2024