Aug, 2023

CASSINI: 机器学习集群中的网络感知作业调度

TL;DRCASSINI是一个面向机器学习聚类的网络感知作业调度器,引入了一种新颖的几何抽象来考虑不同作业的通信模式,在网络链接上放置它们。通过使用亲和图,CASSINI找到一系列时间偏移值来调整一组作业的通信阶段,以便共享相同网络链接的作业的通信模式交错在一起。在一个24台服务器的测试环境中对13个常见机器学习模型进行的实验证明,与最先进的机器学习调度器相比,CASSINI将作业的平均完成时间和尾部完成时间分别提高了1.6倍和2.5倍。此外,我们展示了CASSINI将集群中标记的ECN数据包数量减少了多达33倍。