Apr, 2023

DLRover:一种具有自动任务资源推荐的弹性深度训练扩展

TL;DR系统是一个自动配置深度学习作业资源的分布式深度学习框架,具有动态调整作业资源以获得更好性能的弹性能力。