May, 2023

通过容忍性损失传输协议提升分布式机器学习训练

TL;DR本文提出了一个名为‘Loss-tolerant Transmission Protocol 的传输协议,通过使用乱序传输和乱序 ACK 来实现容错传输。通过与传统的 TCP 拥塞控制的比较,实验证明该协议可以在不损失最终准确性的情况下将分布式机器学习的训练吞吐量提高 30 倍。