May, 2024

AB-Training: 分布式低秩学习的高效通信方法

TL;DR通过将权重矩阵分解为低秩表示并利用独立组群训练,引入 AB-training 方法,显著减少通信开销,提高了通信受限系统上的训练潜力,同时在小规模上表现出正规化效果,从而提高了 VGG16 等模型的泛化性能,并在训练 CIFAR-10 时实现了 44.14:1 的压缩比。尽管有前景,我们的实验表明即使在低秩训练范式中,大批量效应仍然是一个挑战。