Training structured prediction models is time-consuming. However, most
existing approaches only use a single machine, thus, the advantage of computing
power and the capacity for larger data sets of multiple machines have not been
exploited. In this work, we propose an efficient algorit
本文研究了 Deep Learning 中在协作训练上的瓶颈,提出了一种适用于协作训练的新算法框架,并在实际条件下展示了该方法对 SwAV 和 ALBERT 的预训练效果,结果表明该方法的性能与传统设置相当,成本仅为传统设置的一小部分。最后,提供了一个由 40 名参与者组成的成功的协作语言模型预训练的详细报告。