Jul, 2021

ResIST:分层分解 ResNet 以进行分布式训练

TL;DR提出了一种名为 ResIST 的分布式训练协议,通过将全局 ResNet 随机分解为多个浅层子 ResNet 并在本地迭代时分别独立训练,然后将其更新同步并聚合为全局模型,以在迭代中每次仅将网络参数的一小部分传输给每个计算机,从而减少每次迭代的通信,内存和时间要求,且相对于数据并行训练和具有本地 SGD 的数据并行训练等常见协议,可在通信和计算要求方面获得降低,同时与模型性能相比也不逊色。