Nov, 2022

COMET:分布式深度学习训练的综合集群设计方法

TL;DR介绍了一种名为COMET的深度学习集群设计方法和工作流程,该方法能够同时研究并优化并行化策略和关键集群资源配置以提高分布式深度学习模型的性能。纵观一个变量大小的计算,内存和网络资源的集群上训练基于Transformer-1T模型的实例,这个方法能够指导系统设计者进行架构优化方向的筛选,并协助其配置关键模型和集群参数。