Feb, 2024

导航器:用于延迟敏感机器学习工作流的分散调度器

TL;DR我们提出了 Navigator,这是一个将 GPU 内存管理和任务调度统一起来的新框架,它在保证资源利用效率的同时,将任务放置在满足数据依赖关系的位置,将来自同一作业的任务放置在一起(在不过载主机或其 GPU 的情况下),并有效地管理 GPU 内存,与其他领先的调度程序相比,完成时间明显缩短,同时所需的资源量相同甚至更少,在一个案例中,处理相同工作负载只需要一半的服务器。